当前位置:  开发笔记 > 编程语言 > 正文

什么是网络爬虫的理想程序语言?

如何解决《什么是网络爬虫的理想程序语言?》经验,为你挑选了2个好方法。

我需要构建一个内容收集程序,它只需读取指定网页上的数字,然后保存该数据以供日后分析.我不需要它来搜索链接或相关数据,只需从每天都有不断变化的内容的网站收集所有数据.

我的编程经验很少,我希望这对学习有好处.速度不是一个大问题,我估计爬虫最多每天需要加载4000页.

谢谢.

编辑:如果我收集数据的网站受到爬虫的保护,有没有办法提前测试?



1> alamar..:

Python可能,或Perl.

Perl有一个非常好的LWP(Perl中的WWW库),Python有urllib2.

两者都是大多数操作系统上可用的简单脚本语言.

我在Perl做了很多次爬虫,这是一个工作的晚上.

不,除了使用排序的CAPTCHA之外,它们无法真正保护自己免受爬行者的攻击 - 其他一切都比设置更容易破解.

有一点关于Java:Java很好.它更冗长,需要一些开发环境设置:所以你不会在一个晚上,可能是一周内完成.对于一个小问题,作者提出的问题,这可能是一种过度杀伤力.另一方面,有非常有用的库lint,tagsoup(随机HTML的DOM遍历)和lucene(全文索引和搜索),所以你可能希望Java用于更严肃的项目.在这种情况下,我建议Apache commons-httpclient用于网络爬行的库(或者nutch如果你疯了:).

另外:有一些货架式产品可以监控指定网站的变化,并以有用的方式呈现它们,因此您可能只需抓住一个.


大约1年后:我现在精通Python.强烈推荐第一次使用python程序员只是因为语法很有吸引力,这对我来说是学习编程的最大问题.Python终身.
网站无法保护自己不受爬行者的侵害,但抓取者有义务遵守机器人排除协议 - 客户有义务遵守任何网站的服务条款.
Python也有美丽的汤,

2> Greg B..:

您最熟悉的语言不仅仅是最好的语言.

我的编程经验很少

您可能会发现网络爬虫是一种火灾的洗礼,您需要构建一些其他更简单的应用程序来熟悉您选择的语言(和框架,如果适用).

祝好运!

推荐阅读
LEEstarmmmmm
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有