正在寻找关于网络抓取项目最佳实践的良好教程的建议？

作者：贾志军 | 2023-08-28 19:26

如何解决《正在寻找关于网络抓取项目最佳实践的良好教程的建议？》经验，为你挑选了2个好方法。

我需要做一个涉及网页抓取的相当广泛的项目,并考虑使用Hpricot或Beautiful Soup(即Ruby或Python).有没有人遇到他们认为在这个问题上特别好的教程,这将有助于我从右脚开始项目？

1> RexE..：

我最喜欢的两个Python网页抓取工具是Scrapy和Mechanize.每个项目都有自己的教程和最佳实践.

2> Jim Mischel..：

真的不是一个工具,但Michael Shrenk的书,Webbots,Spiders和Screen Scrapers是一个很好的讨论.

该书在其既定任务中取得了很好的成功:解释如何构建简单的Web机器人并按照社区标准进行操作.这不是你需要知道的一切,但这是我见过的最好的介绍.重点是简单的单线程机器人.稍微提到使用多个机器人将数据存储在中央存储库中,但是没有讨论编写可以每秒处理数百页的多线程或分布式机器人所涉及的问题.

如果您对编写Web机器人感兴趣,即使您不熟悉或打算使用PHP,我建议您阅读本书.但一定不要期望超过本书提供的.

推荐阅读

程序员
Python正则表达式在内部找到并替换

如何解决《Python正则表达式在内部找到并替换》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过PInvoke"Hello World"

如何解决《通过PInvoke"HelloWorld"》经验，为你挑选了1个好方法。 ... [详细]
程序员
美丽的汤元内容标记

如何解决《美丽的汤元内容标记》经验，为你挑选了1个好方法。 ... [详细]
程序员
随机分类的数字到变量

如何解决《随机分类的数字到变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
iOS 9自定义转换 - 未调用animationControllerForDismissedController

如何解决《iOS9自定义转换-未调用animationControllerForDismissedController》经验，为你挑选了1个好方法。 ... [详细]
程序员
将JSON反序列化为对象C#

如何解决《将JSON反序列化为对象C#》经验，为你挑选了1个好方法。 ... [详细]
程序员
d3访问分组条形图中的嵌套数据

如何解决《d3访问分组条形图中的嵌套数据》经验，为你挑选了1个好方法。 ... [详细]
程序员
Dynamics CRM 2013图表DrillDown排序

如何解决《DynamicsCRM2013图表DrillDown排序》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在Visual Studio 2015中切换已登录的用户？

如何解决《如何在VisualStudio2015中切换已登录的用户？》经验，为你挑选了1个好方法。 ... [详细]
程序员
是不是可以为ForkJoinPool提供线程库或名称模式？

如何解决《是不是可以为ForkJoinPool提供线程库或名称模式？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Flask:如何在蓝图中的每个路径之前运行方法？

如何解决《Flask:如何在蓝图中的每个路径之前运行方法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Textarea字段在提交时返回空

如何解决《Textarea字段在提交时返回空》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在OSx更新后修复损坏的python 2.7.11

如何解决《如何在OSx更新后修复损坏的python2.7.11》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何使用HTML,CSS和JS制作基于音频标签的自定义音乐播放器

如何解决《如何使用HTML,CSS和JS制作基于音频标签的自定义音乐播放器》经验，为你挑选了0个好方法。 ... [详细]
程序员
在嵌入代码和非嵌入代码之间维护单个代码库

如何解决《在嵌入代码和非嵌入代码之间维护单个代码库》经验，为你挑选了1个好方法。 ... [详细]
程序员
我们可以直接将Parquet文件加载到Hive吗？

如何解决《我们可以直接将Parquet文件加载到Hive吗？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何在app进入前台之前准备UI更新

如何解决《如何在app进入前台之前准备UI更新》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在Ipython(py 2.7)笔记本中更改markdown单元格的字体大小和颜色

如何解决《如何在Ipython(py2.7)笔记本中更改markdown单元格的字体大小和颜色》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django Queryset过滤列表中的参数

如何解决《DjangoQueryset过滤列表中的参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
Lua coroutines - setjmp longjmp clobbering？

如何解决《Luacoroutines-setjmplongjmpclobbering？》经验，为你挑选了1个好方法。 ... [详细]

贾志军

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章