当前位置:  开发笔记 > 编程语言 > 正文

哪种语言适合编写Web爬虫?

如何解决《哪种语言适合编写Web爬虫?》经验,为你挑选了2个好方法。

我有丰富的PHP经验,虽然我意识到PHP可能不是大型Web爬虫的最佳语言,因为进程无法无限期运行.人们建议使用哪些语言?



1> Chris Taylor..:

大多数语言可能是合理的,关键组件是

    图书馆处理互联网Protcols

    用于处理正则表达式的库

    用于解析HTML内容的库

今天,大多数语言都有对上述语言有很好支持的库,当然你需要一些方法来保存可能是某种数据库的结果.

更重要的是,而不是语言是理解你需要处理的所有概念.以下是一些可能有助于您入门的Python示例.

http://www.example-code.com/python/pythonspider.asp



2> Chuck..:

您可以轻松使用任何语言与良好的网络库,并支持解析您想要抓取的格式.这些确实是唯一的资格.


@peachykeen:如果没有后两者,这是可能的 - 这只会是更多的工作.至于速度,我认为INTERCAL对于爬虫来说可能是一个糟糕的选择,但我不明白为什么速度对于网络浏览器来说比任何其他类型的程序更重要(特别是考虑到Web-anything极有可能是IO -界).您的爬虫必须非常慢的执行时间才能压倒Web的延迟.
推荐阅读
携手相约幸福
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有