4赞

php与shell大文件数据统计与排序方法

作者：k78283381 | 2021-08-29 06:51

本节内容： shell与php排序大数据的方法

大数据的问题，比如有个4G的文件，如何用只有1G内存的机器去计算文件中出现次数做多的数字(假设1行是1个数组，例如QQ号码)。如果这个文件只有4B或者几十兆，那么最简单的办法就是直接读取这个文件后进行分析统计。但是这个是4G的文件，当然也可能是几十G甚至几百G的文件，这就不是直接读取能解决了的。

同样对于如此大的文件，单纯用PHP做是肯定行不通的，我的思路是不管多大文件，首先要切割为多个应用可以承受的小文件，然后批量或者依次分析统计小文件后再把总的结果汇总后统计出符合要求的最终结果。类似于比较流行的MapReduce模型，其核心思想就是“Map（映射）”和“Reduce（化简）”，加上分布式的文件处理，当然我能理解和使用到的只有Reduce后去处理。

假设有1个10亿行的文件，每行一个6位-10位不等的QQ号码，那么我需要解决的就是计算在这10亿个QQ号码中，重复最多的前10个号码，使用下面的PHP脚本生成这个文件，很可能这个随机数中不会出现重复，但是假设这里面会有重复的数字出现。

例如，

$fp = fopen('qq.txt','w+');
for( $i=0; $i<1000000000; $i++ ){
$str = mt_rand(10000,9999999999)."\n";
fwrite($fp,$str);
}
fclose($fp);

生成文件的世界比较长，Linux下直接使用php-client运行PHP文件会比较节省时间，当然也可以使用其他方式生成文件。生成的文件大约11G。然后使用Linux Split切割文件，切割标准为每100万行数据1个文件。 split -l 1000000 -a 3 qq.txt qqfile qq.txt被分割为名字是qqfileaaa到qqfilebml的1000个文件，每个文件11mb大小，这时再使用任何处理方法都会比较简单了。

用PHP进行分析统计：

$results = array();
foreach( glob('/tmp/qq/*') as $file ){
$fp = fopen($file,'r');
$arr = array();
while( $qq = fgets($fp) ){
$qq = trim($qq);
isset($arr[$qq]) ? $arr[$qq]++ : $arr[$qq]=1;
}
arsort($arr);
//以下处理方式存在问题
do{
$i=0;
foreach( $arr as $qq=>$times ){
if( $i > 10 ){
isset($results[$qq]) ? $results[$qq]+=$times :$results[$qq]=$times;
$i++;
} else {
break;
}
}
} while(false);
fclose($fp);
}
if( $results ){
arsort($results);
do{
$i=0;
foreach( $results as $qq=>$times ){
if( $i > 10 ){
echo $qq . "\t" . $times . "\n";
$i++;
} else {
break;
}
}
} while(false);
}

这样每个样本取前10个，最后放到一起分析统计，不排除有个数在每个样本中都排名第11位但是总数绝对在前10的可能性，所以后面统计计算算法还需要改进。也许有人说使用Linux中的awk和sort命令可以完成排序，但是我试了下如果是小文件还可以实现，但是11G的文件，不管是内存还是时间都无法承受。

1个awk+sort的脚本： awk -F '\\@' '{name[$1]++ } END {for (count in name) print name[count],count}' qq.txt |sort -n > 123.txt 不管是大文件处理还是可能存在的大数据都存在很大的需求空间。

推荐阅读

程序员
聚合物1嵌套dom-如果在dom-repeat内,则在数据更改时不更新

如何解决《聚合物1嵌套dom-如果在dom-repeat内,则在数据更改时不更新》经验，为你挑选了0个好方法。 ... [详细]
程序员
在ArrayList Java中查找元素

如何解决《在ArrayListJava中查找元素》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在Swift中获取图像文件大小？

如何解决《如何在Swift中获取图像文件大小？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Visual Studio 2015没有自动更新来更新1？

如何解决《VisualStudio2015没有自动更新来更新1？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何计算String的高度？

如何解决《如何计算String的高度？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在AngularJS输入中的@符号后填写完整的电子邮件域

如何解决《在AngularJS输入中的@符号后填写完整的电子邮件域》经验，为你挑选了0个好方法。 ... [详细]
程序员
从类库访问到vNext中的appsetting.json或config.json

如何解决《从类库访问到vNext中的appsetting.json或config.json》经验，为你挑选了1个好方法。 ... [详细]
程序员
单击Submitt后平滑滚动到DIV

如何解决《单击Submitt后平滑滚动到DIV》经验，为你挑选了1个好方法。 ... [详细]
程序员
异步WebRequest冻结应用程序

如何解决《异步WebRequest冻结应用程序》经验，为你挑选了1个好方法。 ... [详细]
程序员
处理应用程序中的不同用户类型

如何解决《处理应用程序中的不同用户类型》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何实现100万个节点的链表？

如何解决《如何实现100万个节点的链表？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Windows应用认证工具包挂起

如何解决《Windows应用认证工具包挂起》经验，为你挑选了0个好方法。 ... [详细]
程序员
Java.exe退出代码1. Xamarin

如何解决《Java.exe退出代码1.Xamarin》经验，为你挑选了1个好方法。 ... [详细]
程序员
获取控制器中的环境值

如何解决《获取控制器中的环境值》经验，为你挑选了4个好方法。 ... [详细]
程序员
使用NOT IN的DELETE的性能（选择...）

如何解决《使用NOTIN的DELETE的性能（选择）》经验，为你挑选了1个好方法。 ... [详细]
程序员
针对Firefox-to-Chrome和Chrome-to-Firefox的WebRTC视频聊天无效

如何解决《针对Firefox-to-Chrome和Chrome-to-Firefox的WebRTC视频聊天无效》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在uwp上模糊网格背景？

如何解决《如何在uwp上模糊网格背景？》经验，为你挑选了1个好方法。 ... [详细]
程序员
查找文件的父ID:Google Drive API V3

如何解决《查找文件的父ID:GoogleDriveAPIV3》经验，为你挑选了2个好方法。 ... [详细]
程序员
通过读取Python的dask模块中的pickle文件来创建dask数据帧

如何解决《通过读取Python的dask模块中的pickle文件来创建dask数据帧》经验，为你挑选了1个好方法。 ... [详细]
程序员
将Hex字符串转换为Int时的java.lang.NumberFormatException

如何解决《将Hex字符串转换为Int时的java.lang.NumberFormatException》经验，为你挑选了1个好方法。 ... [详细]

k78283381

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章