当前位置:  开发笔记 > 编程语言 > 正文

python中的web爬虫.我应该从哪里开始,我应该遵循什么?- 需要帮助

如何解决《python中的web爬虫.我应该从哪里开始,我应该遵循什么?-需要帮助》经验,为你挑选了3个好方法。

我对python有中级知识.如果我必须在python中编写一个Web爬虫,我应该遵循什么,我应该从哪里开始.有没有具体的啧啧?任何建议都会有很大的帮助..谢谢



1> Tim McNamara..:

我强烈建议你看一下Scrapy.该库可以与BeautifulSoup或任何首选的HTML解析器一起使用.我个人将它与lxml.html一起使用.

开箱即用,您可以免费获得以下几项内容:

同时请求,感谢Twisted

CrawlSpider 对象以递归方式查找整个站点中的链接

数据提取和处理的分离很大,这使得大部分并行处理能力



2> Giljed Jowes..:

你肯定需要一个html解析库.为此你可以使用BeautifulSoup.您可以在官方页面中找到大量用于获取网址和处理返回的html的示例和教程:http://www.crummy.com/software/BeautifulSoup/



3> razzmataz..:

如果您仍想从头开始编写,那么您将需要使用mechanize模块.它包括模拟浏览器所需的一切,并自动获取网址.我会多余,也会说BeautifulSoup解析你提取的任何html.否则,我会选择Scrapy ......

推荐阅读
臭小子
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有