当前位置:  开发笔记 > 后端 > 正文

红宝石中的Web爬虫

如何解决《红宝石中的Web爬虫》经验,为你挑选了3个好方法。

您在Ruby中编写Web爬虫的建议是什么?任何lib比机械化更好?



1> lucapette..:

我试试海葵.它使用起来很简单,特别是如果你必须编写一个简单的爬虫.在我看来,它也设计得很好.例如,我编写了一个ruby脚本,可以在很短的时间内在我的网站上搜索404错误.



2> Nakilon..:

如果您只想获取页面内容,最简单的方法是使用open-uri函数.他们不需要额外的宝石.你只需要require 'open-uri'... http://ruby-doc.org/stdlib-2.2.2/libdoc/open-uri/rdoc/OpenURI.html

要解析内容,您可以使用Nokogiri或其他宝石,例如,也可以使用有用的XPATH技术.你可以在SO上找到其他解析库.



3> Felipe Lima..:

你可能想看看袋熊是建立在机械化/引入nokogiri的顶部,提供了DSL(如西纳特拉,例如)来解析页面.很简约 :)

推荐阅读
保佑欣疼你的芯疼
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有