14赞

计算重复的URL,尽可能快的方法

作者：惬听风吟jyy_802 | 2023-09-03 11:41

如何解决《计算重复的URL,尽可能快的方法》经验，为你挑选了1个好方法。

我仍在使用这个庞大的URL列表,我收到的所有帮助都很棒.

目前我的列表看起来像这样(但是17000个URL):

http://www.domain.com/page?CONTENT_ITEM_ID=1
http://www.domain.com/page?CONTENT_ITEM_ID=3
http://www.domain.com/page?CONTENT_ITEM_ID=2
http:// www .domain.com/page？CONTENT_ITEM_ID = 1
http://www.domain.com/page?CONTENT_ITEM_ID=2
http://www.domain.com/page?CONTENT_ITEM_ID=3
http://www.domain.com/页面？CONTENT_ITEM_ID = 3

我可以过滤掉重复项没有问题,有几种方法,awk等.我真正想做的是取出重复的URL,但同时计算列表中存在的URL数和打印次数带管道分隔符的URL旁边的计数.处理完列表后,它应如下所示:

网址| 计算
http://www.domain.com/page?CONTENT_ITEM_ID=1 | 2
http://www.domain.com/page?CONTENT_ITEM_ID=2 | 2
http://www.domain.com/page?CONTENT_ITEM_ID=3 | 3

实现这一目标的最快方法是什么方法？

干杯

1> Vinko Vrsalo..：

这可能与您无需编写代码即可获得的速度一样快.

    $ cat foo.txt
    http://www.domain.com/page?CONTENT_ITEM_ID=1
    http://www.domain.com/page?CONTENT_ITEM_ID=3
    http://www.domain.com/page?CONTENT_ITEM_ID=2
    http://www.domain.com/page?CONTENT_ITEM_ID=1
    http://www.domain.com/page?CONTENT_ITEM_ID=2
    http://www.domain.com/page?CONTENT_ITEM_ID=3
    http://www.domain.com/page?CONTENT_ITEM_ID=3
    $ sort foo.txt | uniq -c
          2 http://www.domain.com/page?CONTENT_ITEM_ID=1
          2 http://www.domain.com/page?CONTENT_ITEM_ID=2
          3 http://www.domain.com/page?CONTENT_ITEM_ID=3

做了一些测试,并没有特别快,虽然对于17k它只需要1秒钟(在装载的P4 2.8Ghz机器上)

$ wc -l foo.txt
174955 foo.txt
vinko@mithril:~/i3media/2008/product/Pending$ time sort foo.txt | uniq -c
  54482 http://www.domain.com/page?CONTENT_ITEM_ID=1
  48212 http://www.domain.com/page?CONTENT_ITEM_ID=2
  72261 http://www.domain.com/page?CONTENT_ITEM_ID=3

real    0m23.534s
user    0m16.817s
sys     0m0.084s

$ wc -l foo.txt
14955 foo.txt
$ time sort foo.txt | uniq -c
   4233 http://www.domain.com/page?CONTENT_ITEM_ID=1
   4290 http://www.domain.com/page?CONTENT_ITEM_ID=2
   6432 http://www.domain.com/page?CONTENT_ITEM_ID=3

real    0m1.349s
user    0m1.216s
sys     0m0.012s

虽然O()像往常一样赢得比赛.测试了S.Lott的解决方案和


$ cat pythoncount.py
from collections import defaultdict
myFile = open( "foo.txt", "ru" )
fq= defaultdict( int )
for n in myFile:
    fq[n] += 1
for n in fq.items():
    print "%s|%s" % (n[0].strip(),n[1])

$ wc -l foo.txt
14955 foo.txt

$ time python pythoncount.py
http://www.domain.com/page?CONTENT_ITEM_ID=2|4290
http://www.domain.com/page?CONTENT_ITEM_ID=1|4233
http://www.domain.com/page?CONTENT_ITEM_ID=3|6432

real    0m0.072s
user    0m0.028s
sys     0m0.012s

$ wc -l foo.txt
1778955 foo.txt

$ time python pythoncount.py
http://www.domain.com/page?CONTENT_ITEM_ID=2|504762
http://www.domain.com/page?CONTENT_ITEM_ID=1|517557
http://www.domain.com/page?CONTENT_ITEM_ID=3|756636

real    0m2.718s
user    0m2.440s
sys     0m0.072s

推荐阅读

程序员
如何使用SUM而不是UNION

如何解决《如何使用SUM而不是UNION》经验，为你挑选了1个好方法。 ... [详细]
程序员
从文件读取并写入StringIO - Python

如何解决《从文件读取并写入StringIO-Python》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Travis-CI上,gradlew组装失败

如何解决《在Travis-CI上,gradlew组装失败》经验，为你挑选了3个好方法。 ... [详细]
程序员
使用启动屏幕在通用应用程序中禁用对iPad Pro的支持

如何解决《使用启动屏幕在通用应用程序中禁用对iPadPro的支持》经验，为你挑选了0个好方法。 ... [详细]
程序员
RxJava:丢弃物品？- 背压

如何解决《RxJava:丢弃物品？-背压》经验，为你挑选了1个好方法。 ... [详细]
程序员
自定义控件变为通用"UserControl",而不是Designer类中的实际类型

如何解决《自定义控件变为通用"UserControl",而不是Designer类中的实际类型》经验，为你挑选了0个好方法。 ... [详细]
程序员
C#到VB.Net转换,RaiseEvent麻烦

如何解决《C#到VB.Net转换,RaiseEvent麻烦》经验，为你挑选了1个好方法。 ... [详细]
程序员
PHP按钮href不起作用

如何解决《PHP按钮href不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何提高Postgres select语句的速度？

如何解决《如何提高Postgresselect语句的速度？》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用TensorFlow获得稳定的结果

如何解决《使用TensorFlow获得稳定的结果》经验，为你挑选了1个好方法。 ... [详细]
程序员
python:构造函数参数表示法

如何解决《python:构造函数参数表示法》经验，为你挑选了0个好方法。 ... [详细]
程序员
Chrome渲染带有垂直垂直线的MathJax方程式

如何解决《Chrome渲染带有垂直垂直线的MathJax方程式》经验，为你挑选了2个好方法。 ... [详细]
程序员
是否有可能在android上的各个过渡区设置转换速度/时间

如何解决《是否有可能在android上的各个过渡区设置转换速度/时间》经验，为你挑选了1个好方法。 ... [详细]
程序员
"将git branch重命名为master"和"使用-s our option将master分支到master"有什么区别？

如何解决《"将gitbranch重命名为master"和"使用-souroption将master分支到master"有什么区别？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Swift包管理器可以编译并包含C库吗？

如何解决《Swift包管理器可以编译并包含C库吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用AsyncTask时应该如何处理HTTP响应代码？

如何解决《使用AsyncTask时应该如何处理HTTP响应代码？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在单元测试中等待Alamofire

如何解决《在单元测试中等待Alamofire》经验，为你挑选了1个好方法。 ... [详细]
程序员
试图调用函数"iconv_strlen"

如何解决《试图调用函数"iconv_strlen"》经验，为你挑选了1个好方法。 ... [详细]
程序员
关于map :: erase和map :: count

如何解决《关于map::erase和map::count》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Mercurial存储库中查找大文件

如何解决《在Mercurial存储库中查找大文件》经验，为你挑选了1个好方法。 ... [详细]

惬听风吟jyy_802

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章