我对python有中级知识.如果我必须在python中编写一个Web爬虫,我应该遵循什么,我应该从哪里开始.有没有具体的啧啧?任何建议都会有很大的帮助..谢谢
我强烈建议你看一下Scrapy.该库可以与BeautifulSoup或任何首选的HTML解析器一起使用.我个人将它与lxml.html一起使用.
开箱即用,您可以免费获得以下几项内容:
同时请求,感谢Twisted
CrawlSpider
对象以递归方式查找整个站点中的链接
数据提取和处理的分离很大,这使得大部分并行处理能力
你肯定需要一个html解析库.为此你可以使用BeautifulSoup.您可以在官方页面中找到大量用于获取网址和处理返回的html的示例和教程:http://www.crummy.com/software/BeautifulSoup/
如果您仍想从头开始编写,那么您将需要使用mechanize模块.它包括模拟浏览器所需的一切,并自动获取网址.我会多余,也会说BeautifulSoup解析你提取的任何html.否则,我会选择Scrapy ......