我需要做一个涉及网页抓取的相当广泛的项目,并考虑使用Hpricot或Beautiful Soup(即Ruby或Python).有没有人遇到他们认为在这个问题上特别好的教程,这将有助于我从右脚开始项目?
我最喜欢的两个Python网页抓取工具是Scrapy和Mechanize.每个项目都有自己的教程和最佳实践.
真的不是一个工具,但Michael Shrenk的书,Webbots,Spiders和Screen Scrapers是一个很好的讨论.
该书在其既定任务中取得了很好的成功:解释如何构建简单的Web机器人并按照社区标准进行操作.这不是你需要知道的一切,但这是我见过的最好的介绍.重点是简单的单线程机器人.稍微提到使用多个机器人将数据存储在中央存储库中,但是没有讨论编写可以每秒处理数百页的多线程或分布式机器人所涉及的问题.
如果您对编写Web机器人感兴趣,即使您不熟悉或打算使用PHP,我建议您阅读本书.但一定不要期望超过本书提供的.