14赞

使用Perl访问半百万页

作者：李桂平2402851397 | 2023-06-30 11:25

如何解决《使用Perl访问半百万页》经验，为你挑选了2个好方法。

目前我正在使用Mechanize和get()方法来获取每个站点,并使用content()方法检查每个主页的内容.我有一个非常快的计算机+ 10Mbit连接,但仍然需要9个小时来检查11K站点,这是不可接受的,问题是,get()函数的速度,显然,需要获取页面,有什么方法可以让它更快,也许是禁用某些东西,因为我只需要检查主页面html.

谢谢,

1> brian d foy..：

并行查询而不是串行查询.如果我需要这样做,我会分叉一个抓取页面的过程.像Parallel :: ForkManager,LWP :: Parallel :: UserAgent或WWW:Curl可能有所帮助.我倾向于喜欢Mojo :: UserAgent.

@soulSurfer:福克斯和线程是不同的东西.

2> szbalint..：

使用WWW::Curl(特别是WWW :: Curl :: Multi).我正在使用它每天抓取100M +页面.该模块是一个瘦的绑定libcurl,所以它感觉有点C-ish,但它很快,几乎任何libcurl都可以做.

我不建议使用LWP :: Parallel :: UA,因为它有点慢,模块本身也没有经过深思熟虑.当我开始编写一个爬虫时,我最初考虑过分配LWP :: Parallel :: UA,但当我调查它的内部时,我决定反对.

免责声明:我是该WWW::Curl模块的当前维护者.

推荐阅读

程序员
限制访问GitHub或Bitbucket存储库

如何解决《限制访问GitHub或Bitbucket存储库》经验，为你挑选了1个好方法。 ... [详细]
程序员
@ViewChild和@ContentChild有什么区别？

如何解决《@ViewChild和@ContentChild有什么区别？》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何在Swift(iOS,Xcode)中将NSDictionary转换为Json String？

如何解决《如何在Swift(iOS,Xcode)中将NSDictionary转换为JsonString？》经验，为你挑选了1个好方法。 ... [详细]
程序员
代理存储库被阻止

如何解决《代理存储库被阻止》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在XML中实现OnTouch侦听器

如何解决《如何在XML中实现OnTouch侦听器》经验，为你挑选了0个好方法。 ... [详细]
程序员
LocalAlloc Vs GlobalAlloc Vs malloc Vs new

如何解决《LocalAllocVsGlobalAllocVsmallocVsnew》经验，为你挑选了2个好方法。 ... [详细]
程序员
什么是Clojure相当于Scala的maxBy函数？

如何解决《什么是Clojure相当于Scala的maxBy函数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否可以使用EF7执行自定义SQL查询

如何解决《是否可以使用EF7执行自定义SQL查询》经验，为你挑选了1个好方法。 ... [详细]
程序员
Imageview中的并行动画

如何解决《Imageview中的并行动画》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用Spring Boot和Liquibase Changeset Yaml文件访问系统属性

如何解决《如何使用SpringBoot和LiquibaseChangesetYaml文件访问系统属性》经验，为你挑选了1个好方法。 ... [详细]
程序员
MultiPartEntity和表单数据究竟是什么？他们如何用于在Android上传图像？

如何解决《MultiPartEntity和表单数据究竟是什么？他们如何用于在Android上传图像？》经验，为你挑选了0个好方法。 ... [详细]
程序员
弹簧安全启动弹簧websocket失败,"没有bean命名'stompWebSocketHandlerMapping'被定义'

如何解决《弹簧安全启动弹簧websocket失败,"没有bean命名'stompWebSocketHandlerMapping'被定义'》经验，为你挑选了1个好方法。 ... [详细]
程序员
计算下个月的最后一天

如何解决《计算下个月的最后一天》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用jQuery上传多部分文件

如何解决《使用jQuery上传多部分文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
JSPM - 使用import和使用脚本标记包含客户端库文件是否有任何优点/缺点？

如何解决《JSPM-使用import和使用脚本标记包含客户端库文件是否有任何优点/缺点？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何让Yii2处理数据提供者的两个不同实例？

如何解决《如何让Yii2处理数据提供者的两个不同实例？》经验，为你挑选了1个好方法。 ... [详细]
程序员
img src属性的json值显示android TextView中的小蓝色框

如何解决《imgsrc属性的json值显示androidTextView中的小蓝色框》经验，为你挑选了0个好方法。 ... [详细]
程序员
比较者不工作

如何解决《比较者不工作》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在python中保护密码

如何解决《如何在python中保护密码》经验，为你挑选了0个好方法。 ... [详细]
程序员
instance_eval和singleton方法之间的区别

如何解决《instance_eval和singleton方法之间的区别》经验，为你挑选了0个好方法。 ... [详细]

李桂平2402851397

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章