19赞

确定文本文件中唯一性和重复性的最佳方法

作者：赛亚兔备_393 | 2023-08-29 13:48

如何解决《确定文本文件中唯一性和重复性的最佳方法》经验，为你挑选了1个好方法。

我有一个大约2000万行的文本文件.每行长度为25个字符.我估计大概有大约200k-300k的独特线路.我想知道的是究竟有多少条独特的线条,以及每条线条的出现次数(我希望结果是幂律式的).

我能做到这一点:

sort bigfile|uniq -c |sort -nr > uniqcounts
wc -l uniqcounts

但这是非常低效的记忆和时间.

这个问题的最佳命令行解决方案是什么？

1> Commodore Ja..：

当我遇到像这样的文本处理问题时,我倾向于倾向于Perl,特别是因为Perl安装在大多数Unix系统上.(你可以用awk做同样的事情,这可能会更有用.)

像这样的东西应该做的伎俩:

#!/usr/bin/perl

while(<>) {
    chomp;
    $lines{$_}++;
}

print "Total unique lines: ", scalar(keys %lines), "\n";
foreach my $line (sort {$lines{$b} <=> $lines{$a}} keys %lines) {
    printf "%6d  %s\n", $lines{$line}, $line;
}

(你可以做一个单行,但是分解使它更容易阅读.)

这需要O(n)内存用于散列键,其中n是唯一行的数量.运行时效率取决于散列查找,但介于O(n)(如果没有散列冲突)和O(n*log n)(对于平衡树)之间.在最坏的情况下,最终的可选排序可能需要O(n ^ 2),并且如果唯一行的数量很高,则可能在运行时占主导地位.

推荐阅读

程序员
与鼠标轮的水平的纸卷在水平的名单上

如何解决《与鼠标轮的水平的纸卷在水平的名单上》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何在单击angularjs时调用两个函数

如何解决《如何在单击angularjs时调用两个函数》经验，为你挑选了2个好方法。 ... [详细]
程序员
将DDL与SELECT混合使用时,"错误:缓存计划不得更改结果类型"

如何解决《将DDL与SELECT混合使用时,"错误:缓存计划不得更改结果类型"》经验，为你挑选了1个好方法。 ... [详细]
程序员
if语句是多余的java

如何解决《if语句是多余的java》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何在python中模拟/修补装饰器？

如何解决《如何在python中模拟/修补装饰器？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Q学习与时间差异与基于模型的强化学习

如何解决《Q学习与时间差异与基于模型的强化学习》经验，为你挑选了1个好方法。 ... [详细]
程序员
python paramiko等待完成执行命令

如何解决《pythonparamiko等待完成执行命令》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过环境变量在Spring Boot中设置日志级别

如何解决《通过环境变量在SpringBoot中设置日志级别》经验，为你挑选了3个好方法。 ... [详细]
程序员
获得Eloquent Model Laravel 5.1的原始属性

如何解决《获得EloquentModelLaravel5.1的原始属性》经验，为你挑选了4个好方法。 ... [详细]
程序员
将std :: map转换为Rcpp :: List？

如何解决《将std::map转换为Rcpp::List？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java发送电子邮件避免smtp中继服务器并直接发送到MX服务器

如何解决《Java发送电子邮件避免smtp中继服务器并直接发送到MX服务器》经验，为你挑选了1个好方法。 ... [详细]
程序员
API接口不得扩展其他接口Retrofit 2

如何解决《API接口不得扩展其他接口Retrofit2》经验，为你挑选了1个好方法。 ... [详细]
程序员
设备锁定时NSTimer不起作用

如何解决《设备锁定时NSTimer不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
Swift 2.1错误"二进制运算符||不能应用于两个Bool操作数"

如何解决《Swift2.1错误"二进制运算符||不能应用于两个Bool操作数"》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java消费群失踪了吗？

如何解决《Java消费群失踪了吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
我如何将此int转换为十进制格式

如何解决《我如何将此int转换为十进制格式》经验，为你挑选了1个好方法。 ... [详细]
程序员
Ruby - 在分叉进程上的set_trace_func

如何解决《Ruby-在分叉进程上的set_trace_func》经验，为你挑选了0个好方法。 ... [详细]
程序员
git-lfs文件存储在哪里？

如何解决《git-lfs文件存储在哪里？》经验，为你挑选了1个好方法。 ... [详细]
程序员
CoordinatorLayout在另一个CoordinatorLayout里面

如何解决《CoordinatorLayout在另一个CoordinatorLayout里面》经验，为你挑选了3个好方法。 ... [详细]
程序员
在经典的asp上传文件

如何解决《在经典的asp上传文件》经验，为你挑选了1个好方法。 ... [详细]

赛亚兔备_393

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章