19赞

用于大规模刮削/解析的技术是什么？

作者：周扒pi | 2023-07-06 15:33

如何解决《用于大规模刮削/解析的技术是什么？》经验，为你挑选了1个好方法。

我们正在设计一个大规模的网络抓取/解析项目.基本上,脚本需要浏览网页列表,提取特定标记的内容,并将其存储在数据库中.你会建议用什么语言大规模(数千万页？)..

我们正在将MongoDB用于数据库,因此任何具有可靠MongoDB驱动程序的东西都是优先考虑的.

到目前为止,我们一直在使用(不要笑)PHP,curl和Simple HTML DOM Parser,但我不认为它可以扩展到数百万个页面,特别是因为PHP没有适当的多线程.

我们需要一些易于开发的东西,可以在Linux服务器上运行,具有强大的HTML/DOM解析器以轻松提取该标签,并且可以在合理的时间内轻松下载数百万个网页.我们并不是真的在寻找网络抓取工具,因为我们不需要关注链接并索引所有内容,我们只需要从列表中的每个页面中提取一个标记.

1> Hank Gay..：

如果你真的在谈论大的规模,那么你可能想要的东西,可以让你进行水平扩展,例如,像地图,减少框架的Hadoop.您可以使用多种语言编写Hadoop作业,因此您不必使用Java.例如,这是一篇关于用Python编写Hadoop作业的文章.顺便说一句,这可能是我使用的语言,这要归功于像httplib2发出请求和lxml解析结果这样的库.

如果Map-Reduce框架过度,你可以将它保存在Python中并使用multiprocessing.

更新:如果您不想使用MapReduce框架,并且您更喜欢其他语言,请查看ThreadPoolExecutorJava中的内容.不过,我肯定会使用Apache Commons HTTP客户端的东西.JDK本身的东西对程序员友好程度较低.

推荐阅读

程序员
在Haskell中,(=="")是什么意思？

如何解决《在Haskell中,(=="")是什么意思？》经验，为你挑选了4个好方法。 ... [详细]
程序员
获取对调用方法的对象的引用？

如何解决《获取对调用方法的对象的引用？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在OSX中更新monodevelop3.0.6并保留mono3.0.3？

如何解决《如何在OSX中更新monodevelop3.0.6并保留mono3.0.3？》经验，为你挑选了0个好方法。 ... [详细]
程序员
写入文件时了解logcat输出

如何解决《写入文件时了解logcat输出》经验，为你挑选了1个好方法。 ... [详细]
程序员
从iframe更改父元素不起作用？

如何解决《从iframe更改父元素不起作用？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将jqPlot图保存到图像文件

如何解决《将jqPlot图保存到图像文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
XCode 4.5中的分布式构建？

如何解决《XCode4.5中的分布式构建？》经验，为你挑选了1个好方法。 ... [详细]
程序员
飞镖货币格式

如何解决《飞镖货币格式》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何以编程方式训练SpeechRecognitionEngine并将音频文件转换为C#或vb.net中的文本

如何解决《如何以编程方式训练SpeechRecognitionEngine并将音频文件转换为C#或vb.net中的文本》经验，为你挑选了1个好方法。 ... [详细]
程序员
MySQL UPDATE随机数介于1-3之间

如何解决《MySQLUPDATE随机数介于1-3之间》经验，为你挑选了2个好方法。 ... [详细]
程序员
--launcher.XXMaxPermSize在eclipse.ini中出现两次

如何解决《--launcher.XXMaxPermSize在eclipse.ini中出现两次》经验，为你挑选了0个好方法。 ... [详细]
程序员
对于在时间1和时间2之间没有发生任何变化的情况,删除所有id的情况

如何解决《对于在时间1和时间2之间没有发生任何变化的情况,删除所有id的情况》经验，为你挑选了0个好方法。 ... [详细]
程序员
初学Java挑战

如何解决《初学Java挑战》经验，为你挑选了1个好方法。 ... [详细]
程序员
登录用户注册与巫术

如何解决《登录用户注册与巫术》经验，为你挑选了1个好方法。 ... [详细]
程序员
从一个元组中的两个列表中总结相应的对 - 在Haskell中

如何解决《从一个元组中的两个列表中总结相应的对-在Haskell中》经验，为你挑选了1个好方法。 ... [详细]
程序员
所有电子邮件提供商都会忽略@前面的时段吗？

如何解决《所有电子邮件提供商都会忽略@前面的时段吗？》经验，为你挑选了2个好方法。 ... [详细]
程序员
AI有公共聊天数据库吗？

如何解决《AI有公共聊天数据库吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何降低svg过滤器中alpha层的不透明度？

如何解决《如何降低svg过滤器中alpha层的不透明度？》经验，为你挑选了2个好方法。 ... [详细]
程序员
零正确(资源处理)规则在哪里？

如何解决《零正确(资源处理)规则在哪里？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Flexslider 100%宽度创建水平滚动条

如何解决《Flexslider100%宽度创建水平滚动条》经验，为你挑选了1个好方法。 ... [详细]

周扒pi

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章