当前位置:  开发笔记 > 编程语言 > 正文

屏幕抓取网页,使用Mechanize显示数据页面

如何解决《屏幕抓取网页,使用Mechanize显示数据页面》经验,为你挑选了1个好方法。

我正在尝试屏幕抓取一个网页(使用Mechanize),它在网格页面中显示记录.我能够读取第一页中显示的值,但现在需要导航到下一页以读取适当的值.


    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    ...

我能够通过所有链接,但当我尝试这个: -

links = (row/"a")
links.each do |link|
    agent.click link.attributes['href']   # This fails 
    agent.click link   # This also fails
end

原因是agent.click期望URL作为参数.

有没有一种方法可以在页面显示时读取所有值?如果不是,当href是回发而不是URL时,我们怎么能有这样的点击动作?



1> Gaetan Dubar..:

Mechanize无法处理javascript,所以基本上你有两个选择:

使用scrubyt和firewatir:这是一种脚本浏览器的方式(因此Firefox处理javascript部分)

手动检查基本URL并动态添加页码

就像是:

base_url = 'http://example.com/gvw_offcies&page='
links.each do |link|
  page_number = ... #get the page number from link
  agent.get base_url+page_number
end

推荐阅读
mobiledu2402852413
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有