我有丰富的PHP经验,虽然我意识到PHP可能不是大型Web爬虫的最佳语言,因为进程无法无限期运行.人们建议使用哪些语言?
大多数语言可能是合理的,关键组件是
图书馆处理互联网Protcols
用于处理正则表达式的库
用于解析HTML内容的库
今天,大多数语言都有对上述语言有很好支持的库,当然你需要一些方法来保存可能是某种数据库的结果.
更重要的是,而不是语言是理解你需要处理的所有概念.以下是一些可能有助于您入门的Python示例.
http://www.example-code.com/python/pythonspider.asp
您可以轻松使用任何语言与良好的网络库,并支持解析您想要抓取的格式.这些确实是唯一的资格.