我想知道什么是最好的用于抓取和分析网站的eopen-source库.一个例子是爬虫物业代理商,在那里我想从多个站点获取信息并将它们聚合到我自己的站点中.为此,我需要抓取网站并提取属性广告.
我做了很多抓,使用优秀的python包urllib2,mechanize和BeautifulSoup.
我还建议看看lxml和Scrapy,虽然我目前不使用它们(仍计划尝试scrapy).
Perl语言也有很好的抓取功能.