当前位置:  开发笔记 > 编程语言 > 正文

用于抓取和数据挖掘网站的最佳开源库或应用程序

如何解决《用于抓取和数据挖掘网站的最佳开源库或应用程序》经验,为你挑选了1个好方法。
如何解决《用于抓取和数据挖掘网站的最佳开源库或应用程序》经验,为你挑选了1个好方法。

我想知道什么是最好的用于抓取和分析网站的eopen-source库.一个例子是爬虫物业代理商,在那里我想从多个站点获取信息并将它们聚合到我自己的站点中.为此,我需要抓取网站并提取属性广告.



1> Eugene Moroz..:

我做了很多抓,使用优秀的python包urllib2,mechanize和BeautifulSoup.

我还建议看看lxml和Scrapy,虽然我目前不使用它们(仍计划尝试scrapy).

Perl语言也有很好的抓取功能.

推荐阅读
Chloemw
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有