我需要构建一个内容收集程序,它只需读取指定网页上的数字,然后保存该数据以供日后分析.我不需要它来搜索链接或相关数据,只需从每天都有不断变化的内容的网站收集所有数据.
我的编程经验很少,我希望这对学习有好处.速度不是一个大问题,我估计爬虫最多每天需要加载4000页.
谢谢.
编辑:如果我收集数据的网站受到爬虫的保护,有没有办法提前测试?
Python可能,或Perl.
Perl有一个非常好的LWP(Perl中的WWW库),Python有urllib2.
两者都是大多数操作系统上可用的简单脚本语言.
我在Perl做了很多次爬虫,这是一个工作的晚上.
不,除了使用排序的CAPTCHA之外,它们无法真正保护自己免受爬行者的攻击 - 其他一切都比设置更容易破解.
有一点关于Java:Java很好.它更冗长,需要一些开发环境设置:所以你不会在一个晚上,可能是一周内完成.对于一个小问题,作者提出的问题,这可能是一种过度杀伤力.另一方面,有非常有用的库lint
,tagsoup
(随机HTML的DOM遍历)和lucene
(全文索引和搜索),所以你可能希望Java用于更严肃的项目.在这种情况下,我建议Apache commons-httpclient
用于网络爬行的库(或者nutch
如果你疯了:).
另外:有一些货架式产品可以监控指定网站的变化,并以有用的方式呈现它们,因此您可能只需抓住一个.
您最熟悉的语言不仅仅是最好的语言.
我的编程经验很少
您可能会发现网络爬虫是一种火灾的洗礼,您需要构建一些其他更简单的应用程序来熟悉您选择的语言(和框架,如果适用).
祝好运!