在Ruby中解析网页的最佳方法是什么？

作者：喜生-Da | 2023-09-04 19:28

如何解决《在Ruby中解析网页的最佳方法是什么？》经验，为你挑选了3个好方法。

我一直在rubyforge上查看XML和HTML库,这是一种从网页中提取数据的简单方法.例如,如果我想在stackoverflow上解析用户页面,我该如何将数据转换为可用的格式？

假设我想解析自己的用户页面以获取我当前的信誉评分和徽章列表.我试图将从我的用户页面检索到的源转换为xml,但由于缺少div,转换失败.我知道我可以做一个字符串比较并找到我正在寻找的文本,但必须有一个更好的方法来做到这一点.

我想将它合并到一个简单的脚本中,该脚本在命令行中吐出我的用户数据,并可能将其扩展为GUI应用程序.

1> Armin Ronach..：

不幸的是,stackoverflow声称是XML,但实际上并非如此. 然而,Hpricot可以将这个标签汤解析为一个元素树.

require 'hpricot'
require 'open-uri'

doc = Hpricot(open("http://stackoverflow.com/users/19990/armin-ronacher"))
reputation = (doc / "td.summaryinfo div.summarycount").text.gsub(/[^\d]+/, "").to_i

等等.

2> ethyreal..：

尝试hpricot,它很好......太棒了

我已多次使用它进行屏幕抓取.

3> AnkitG..：

Hpricot结束了!

现在使用Nokogiri.

推荐阅读

程序员
字符/数字的乘法可以更高效吗？

如何解决《字符/数字的乘法可以更高效吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Jetty Websockets-应该如何使用sendPing和sendPong？

如何解决《JettyWebsockets-应该如何使用sendPing和sendPong？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Graphicsmagick C++ API

如何解决《GraphicsmagickC++API》经验，为你挑选了1个好方法。 ... [详细]
程序员
用Angular设置Express

如何解决《用Angular设置Express》经验，为你挑选了1个好方法。 ... [详细]
程序员
(Jade或Slim)类似于React的语法？

如何解决《(Jade或Slim)类似于React的语法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Selenium Opera Webdriver中启用Opera Turbo

如何解决《在SeleniumOperaWebdriver中启用OperaTurbo》经验，为你挑选了0个好方法。 ... [详细]
程序员
有没有办法让Delphi VCL表格大小而不改变BorderStyle？

如何解决《有没有办法让DelphiVCL表格大小而不改变BorderStyle？》经验，为你挑选了2个好方法。 ... [详细]
程序员
RxJava：观察套接字发出的消息

如何解决《RxJava：观察套接字发出的消息》经验，为你挑选了1个好方法。 ... [详细]
程序员
SBT目录结构.什么是"项目"？

如何解决《SBT目录结构.什么是"项目"？》经验，为你挑选了1个好方法。 ... [详细]
程序员
谷歌地图有角度

如何解决《谷歌地图有角度》经验，为你挑选了1个好方法。 ... [详细]
程序员
了解R中的P值-轻松

如何解决《了解R中的P值-轻松》经验，为你挑选了1个好方法。 ... [详细]
程序员
Dagger不喜欢抛出异常的构造函数

如何解决《Dagger不喜欢抛出异常的构造函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在R包中定义"隐藏的全局变量"？

如何解决《如何在R包中定义"隐藏的全局变量"？》经验，为你挑选了2个好方法。 ... [详细]
程序员
无法获得app.local到路由文件

如何解决《无法获得app.local到路由文件》经验，为你挑选了0个好方法。 ... [详细]
程序员
解释SML函数及其类型

如何解决《解释SML函数及其类型》经验，为你挑选了1个好方法。 ... [详细]
程序员
IntelliJ IDEA TypeScript/Webpack调试仅适用于JavaScript断点

如何解决《IntelliJIDEATypeScript/Webpack调试仅适用于JavaScript断点》经验，为你挑选了0个好方法。 ... [详细]
程序员
将元素添加到列表的代码变体之间的差异

如何解决《将元素添加到列表的代码变体之间的差异》经验，为你挑选了1个好方法。 ... [详细]
程序员
结合Theano中的标量和矢量来计算Hessian

如何解决《结合Theano中的标量和矢量来计算Hessian》经验，为你挑选了0个好方法。 ... [详细]
程序员
用渐变替换饼图颜色

如何解决《用渐变替换饼图颜色》经验，为你挑选了1个好方法。 ... [详细]
程序员
问号'？' 在锚链接

如何解决《问号'？'在锚链接》经验，为你挑选了1个好方法。 ... [详细]

喜生-Da

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章