18赞

可以解释JavaScript的Web爬虫

作者：我我檬檬我我186 | 2023-07-15 14:55

如何解决《可以解释JavaScript的Web爬虫》经验，为你挑选了2个好方法。

我想编写一个可以解释JavaScript的网络爬虫.基本上它是一个Java或PHP程序,它将URL作为输入并输出DOM树,类似于Firebug HTML窗口中的输出.最好的例子是Kayak.com,当您查看源代码时,您无法在浏览器上看到生成的DOM,但可以通过Firebug保存生成的HTML.

我该怎么做呢？有哪些工具可以帮助我？

1> tokland..：

Ruby的Capybara是一个集成测试库,但它也可以用来编写独立的Web爬虫.鉴于它使用像Selenium或无头WebKit这样的后端,它可以解释开箱即用的javascript:

require 'capybara/dsl'
require 'capybara-webkit'

include Capybara::DSL
Capybara.current_driver = :webkit
Capybara.app_host = "http://www.google.com"
page.visit("/")
puts(page.html)

2> Jeff..：

我一直在使用HtmlUnit(Java).这最初是为单元测试页面设计的.它不是完美的javascript,但它在我的有限使用中没有让我失望.根据该站点,它可以在合理的程度上运行以下JS框架:

jQuery 1.2.6

MochiKit 1.4.1

GWT 2.0.0

Sarissa 0.9.9.3

MooTools 1.2.1

原型1.6.0

Ext JS 2.2

Dojo 1.0.2

YUI 2.3.0

推荐阅读

程序员
如何使用数组在div上按顺序获取颜色

如何解决《如何使用数组在div上按顺序获取颜色》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Windows 10主页中设置Composer路径变量

如何解决《在Windows10主页中设置Composer路径变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用FileReader（Web API）在浏览器中读取大文件

如何解决《使用FileReader（WebAPI）在浏览器中读取大文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
Bash参数扩展 - 获取文件的直接父目录

如何解决《Bash参数扩展-获取文件的直接父目录》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何给lambda中的运算符添加空间？

如何解决《如何给lambda中的运算符添加空间？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使这个字符串替换代码与`<br/>`标签一起使用？

如何解决《如何使这个字符串替换代码与`<br/>`标签一起使用？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在admin中保存新模型时,表"django_admin_log"上的插入或更新违反了外键约束

如何解决《在admin中保存新模型时,表"django_admin_log"上的插入或更新违反了外键约束》经验，为你挑选了1个好方法。 ... [详细]
程序员
是什么使WSGI本质上是同步的？

如何解决《是什么使WSGI本质上是同步的？》经验，为你挑选了1个好方法。 ... [详细]
程序员
嵌入在UIWebView中的Youtube视频在真实设备上没有声音

如何解决《嵌入在UIWebView中的Youtube视频在真实设备上没有声音》经验，为你挑选了3个好方法。 ... [详细]
程序员
我们如何通过可变引用来维护类的不变性

如何解决《我们如何通过可变引用来维护类的不变性》经验，为你挑选了2个好方法。 ... [详细]
程序员
Powershell数组:何时使用它们; 何时避免; 和使用它们的问题

如何解决《Powershell数组:何时使用它们;何时避免;和使用它们的问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
Unity动画播放预览但不播放游戏时播放

如何解决《Unity动画播放预览但不播放游戏时播放》经验，为你挑选了1个好方法。 ... [详细]
程序员
具有宏值串联的C ++`ifdef`

如何解决《具有宏值串联的C++`ifdef`》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用#close后,应该释放光标

如何解决《使用#close后,应该释放光标》经验，为你挑选了1个好方法。 ... [详细]
程序员
Spring RestTemplate:同时发布图像和对象

如何解决《SpringRestTemplate:同时发布图像和对象》经验，为你挑选了0个好方法。 ... [详细]
程序员
在C++中对结构的向量进行排序

如何解决《在C++中对结构的向量进行排序》经验，为你挑选了1个好方法。 ... [详细]
程序员
在回调中使用this.setState

如何解决《在回调中使用this.setState》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python 101:无法打开文件:没有这样的文件或目录

如何解决《Python101:无法打开文件:没有这样的文件或目录》经验，为你挑选了1个好方法。 ... [详细]
程序员
开始使用sugarORM 1.4

如何解决《开始使用sugarORM1.4》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Docker Compose运行相同多容器应用程序的副本

如何解决《使用DockerCompose运行相同多容器应用程序的副本》经验，为你挑选了1个好方法。 ... [详细]

我我檬檬我我186

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章