9赞

屏幕抓取网页,使用Mechanize显示数据页面

作者：mobiledu2402852413 | 2023-08-29 09:09

如何解决《屏幕抓取网页,使用Mechanize显示数据页面》经验，为你挑选了1个好方法。

我正在尝试屏幕抓取一个网页(使用Mechanize),它在网格页面中显示记录.我能够读取第一页中显示的值,但现在需要导航到下一页以读取适当的值.

我能够通过所有链接,但当我尝试这个: -

links = (row/"a")
links.each do |link|
    agent.click link.attributes['href']   # This fails 
    agent.click link   # This also fails
end

原因是agent.click期望URL作为参数.

有没有一种方法可以在页面显示时读取所有值？如果不是,当href是回发而不是URL时,我们怎么能有这样的点击动作？

1> Gaetan Dubar..：

Mechanize无法处理javascript,所以基本上你有两个选择:

使用scrubyt和firewatir:这是一种脚本浏览器的方式(因此Firefox处理javascript部分)

手动检查基本URL并动态添加页码

就像是:

base_url = 'http://example.com/gvw_offcies&page='
links.each do |link|
  page_number = ... #get the page number from link
  agent.get base_url+page_number
end

推荐阅读

程序员
我应该在Heroku上使用prema_app和Puma吗？

如何解决《我应该在Heroku上使用prema_app和Puma吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
尝试使用cfoauth标记中的Google帐户登录

如何解决《尝试使用cfoauth标记中的Google帐户登录》经验，为你挑选了1个好方法。 ... [详细]
程序员
从字典列表到np数组数组,反之亦然

如何解决《从字典列表到np数组数组,反之亦然》经验，为你挑选了1个好方法。 ... [详细]
程序员
WF4服务问题 - ServiceManagement.svc

如何解决《WF4服务问题-ServiceManagement.svc》经验，为你挑选了0个好方法。 ... [详细]
程序员
成员'计数'含糊不清

如何解决《成员'计数'含糊不清》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用Time从今天开始下个月的日期

如何解决《如何使用Time从今天开始下个月的日期》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用Calendar事件获取通知？

如何解决《如何使用Calendar事件获取通知？》经验，为你挑选了0个好方法。 ... [详细]
程序员
离子 - 路线变化事件

如何解决《离子-路线变化事件》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过递归以相反的顺序打印出一行代码

如何解决《通过递归以相反的顺序打印出一行代码》经验，为你挑选了1个好方法。 ... [详细]
程序员
Laravel搜索不存在关系的地方

如何解决《Laravel搜索不存在关系的地方》经验，为你挑选了1个好方法。 ... [详细]
程序员
在页面构造函数中异步调用Web服务

如何解决《在页面构造函数中异步调用Web服务》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Windows上的rStudio上编织标记为pdf时出错43

如何解决《在Windows上的rStudio上编织标记为pdf时出错43》经验，为你挑选了1个好方法。 ... [详细]
程序员
编译器反转C行顺序？

如何解决《编译器反转C行顺序？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用SSE执行uint32/float转换？

如何解决《如何使用SSE执行uint32/float转换？》经验，为你挑选了2个好方法。 ... [详细]
程序员
bc(standard_in)1:语法错误

如何解决《bc(standard_in)1:语法错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何为python3和python2分别设置不同的PYTHONPATH变量

如何解决《如何为python3和python2分别设置不同的PYTHONPATH变量》经验，为你挑选了2个好方法。 ... [详细]
程序员
Flask中的自定义中止映射/异常

如何解决《Flask中的自定义中止映射/异常》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用CowntDownLatch测试强制竞争条件会导致java.lang.IllegalMonitorStateException

如何解决《使用CowntDownLatch测试强制竞争条件会导致java.lang.IllegalMonitorStateException》经验，为你挑选了1个好方法。 ... [详细]
程序员
返回部分视图和消息

如何解决《返回部分视图和消息》经验，为你挑选了1个好方法。 ... [详细]
程序员
来自ajax调用的symfony中的表单验证

如何解决《来自ajax调用的symfony中的表单验证》经验，为你挑选了2个好方法。 ... [详细]

mobiledu2402852413

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章