什么是网络爬虫的理想程序语言？

作者：LEEstarmmmmm | 2023-08-25 07:21

如何解决《什么是网络爬虫的理想程序语言？》经验，为你挑选了2个好方法。

我需要构建一个内容收集程序,它只需读取指定网页上的数字,然后保存该数据以供日后分析.我不需要它来搜索链接或相关数据,只需从每天都有不断变化的内容的网站收集所有数据.

我的编程经验很少,我希望这对学习有好处.速度不是一个大问题,我估计爬虫最多每天需要加载4000页.

谢谢.

编辑:如果我收集数据的网站受到爬虫的保护,有没有办法提前测试？

1> alamar..：

Python可能,或Perl.

Perl有一个非常好的LWP(Perl中的WWW库),Python有urllib2.

两者都是大多数操作系统上可用的简单脚本语言.

我在Perl做了很多次爬虫,这是一个工作的晚上.

不,除了使用排序的CAPTCHA之外,它们无法真正保护自己免受爬行者的攻击 - 其他一切都比设置更容易破解.

有一点关于Java:Java很好.它更冗长,需要一些开发环境设置:所以你不会在一个晚上,可能是一周内完成.对于一个小问题,作者提出的问题,这可能是一种过度杀伤力.另一方面,有非常有用的库lint,tagsoup(随机HTML的DOM遍历)和lucene(全文索引和搜索),所以你可能希望Java用于更严肃的项目.在这种情况下,我建议Apache commons-httpclient用于网络爬行的库(或者nutch如果你疯了:).

另外:有一些货架式产品可以监控指定网站的变化,并以有用的方式呈现它们,因此您可能只需抓住一个.

大约1年后:我现在精通Python.强烈推荐第一次使用python程序员只是因为语法很有吸引力,这对我来说是学习编程的最大问题.Python终身.

网站无法保护自己不受爬行者的侵害,但抓取者有义务遵守机器人排除协议 - 客户有义务遵守任何网站的服务条款.

Python也有美丽的汤,

2> Greg B..：

您最熟悉的语言不仅仅是最好的语言.

我的编程经验很少

您可能会发现网络爬虫是一种火灾的洗礼,您需要构建一些其他更简单的应用程序来熟悉您选择的语言(和框架,如果适用).

祝好运!

推荐阅读

程序员
无法恢复/删除/更新NuGet包,因为上述版本不再可用

如何解决《无法恢复/删除/更新NuGet包,因为上述版本不再可用》经验，为你挑选了2个好方法。 ... [详细]
程序员
'is'运算符与非缓存整数意外地运行

如何解决《'is'运算符与非缓存整数意外地运行》经验，为你挑选了2个好方法。 ... [详细]
程序员
服务工作者正在缓存文件但从未触发获取事件

如何解决《服务工作者正在缓存文件但从未触发获取事件》经验，为你挑选了2个好方法。 ... [详细]
程序员
Hadoop中有多少种类型的InputFormat？

如何解决《Hadoop中有多少种类型的InputFormat？》经验，为你挑选了1个好方法。 ... [详细]
程序员
获取电子表格中AWS S3存储桶中所有对象的链接？

如何解决《获取电子表格中AWSS3存储桶中所有对象的链接？》经验，为你挑选了1个好方法。 ... [详细]
程序员
我应该在什么情况下使用Ebean或EbeanServer？

如何解决《我应该在什么情况下使用Ebean或EbeanServer？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在不触发浏览器SSL检查的情况下重定向www流量？

如何解决《如何在不触发浏览器SSL检查的情况下重定向www流量？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Pycharm调试器 - 帧不可用

如何解决《Pycharm调试器-帧不可用》经验，为你挑选了1个好方法。 ... [详细]
程序员
退出儿童过程

如何解决《退出儿童过程》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用+ =但不附加列表时的UnboundLocalError

如何解决《使用+=但不附加列表时的UnboundLocalError》经验，为你挑选了1个好方法。 ... [详细]
程序员
将R自动安装SystemRequirements:对于尚未拥有该程序的用户

如何解决《将R自动安装SystemRequirements:对于尚未拥有该程序的用户》经验，为你挑选了0个好方法。 ... [详细]
程序员
indexOf在javascript中的混乱

如何解决《indexOf在javascript中的混乱》经验，为你挑选了1个好方法。 ... [详细]
程序员
包含libxml2和LLVM模块映射

如何解决《包含libxml2和LLVM模块映射》经验，为你挑选了0个好方法。 ... [详细]
程序员
如果"14"LEQ"7"()失败

如何解决《如果"14"LEQ"7"()失败》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python namedtuple的可变默认参数

如何解决《Pythonnamedtuple的可变默认参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
自定义Firefox Developer开发工具颜色主题

如何解决《自定义FirefoxDeveloper开发工具颜色主题》经验，为你挑选了0个好方法。 ... [详细]
程序员
无论密钥如何,Spark总结值

如何解决《无论密钥如何,Spark总结值》经验，为你挑选了1个好方法。 ... [详细]
程序员
Numpy vectorize错误地将输出转换为整数

如何解决《Numpyvectorize错误地将输出转换为整数》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何解决这种复发T(n)= T(n-1)+ lg(1 + 1/n),T(1)= 1？

如何解决《如何解决这种复发T(n)=T(n-1)+lg(1+1/n),T(1)=1？》经验，为你挑选了1个好方法。 ... [详细]
程序员
全面列表中的两个for循环

如何解决《全面列表中的两个for循环》经验，为你挑选了2个好方法。 ... [详细]

LEEstarmmmmm

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章