当前位置:  开发笔记 > 编程语言 > 正文

正在寻找关于网络抓取项目最佳实践的良好教程的建议?

如何解决《正在寻找关于网络抓取项目最佳实践的良好教程的建议?》经验,为你挑选了2个好方法。

我需要做一个涉及网页抓取的相当广泛的项目,并考虑使用Hpricot或Beautiful Soup(即Ruby或Python).有没有人遇到他们认为在这个问题上特别好的教程,这将有助于我从右脚开始项目?



1> RexE..:

我最喜欢的两个Python网页抓取工具是Scrapy和Mechanize.每个项目都有自己的教程和最佳实践.



2> Jim Mischel..:

真的不是一个工具,但Michael Shrenk的书,Webbots,Spiders和Screen Scrapers是一个很好的讨论.

该书在其既定任务中取得了很好的成功:解释如何构建简单的Web机器人并按照社区标准进行操作.这不是你需要知道的一切,但这是我见过的最好的介绍.重点是简单的单线程机器人.稍微提到使用多个机器人将数据存储在中央存储库中,但是没有讨论编写可以每秒处理数百页的多线程或分布式机器人所涉及的问题.

如果您对编写Web机器人感兴趣,即使您不熟悉或打算使用PHP,我建议您阅读本书.但一定不要期望超过本书提供的.

推荐阅读
贾志军
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有