在Joel&Jeff播客的第78集中,一个Doctype/Litmus人说你永远不想在红宝石中建造蜘蛛.有人想猜测他的推理吗?
无论如何,爬虫需要多快?这取决于您是在紧张的时间表内抓取整个网络,还是在一个网站上从几十个页面收集数据.
使用Ruby和nokogiri库,我可以阅读此页面并在0.01秒内解析它.使用xpath从解析的页面中提取数据,我可以在0.16秒内将所有数据转换为特定于域的对象.全部223行.
我遇到越来越少的传统约束(cpu/memory/disk)问题.这是一个充足的时代.如果资源不是限制因素,请不要问"机器有什么用处".问"对人类有什么好处?"