我知道这个问题一定是在这里问过的,但通过搜索我找不到解决办法:
我的问题是:什么是最好的Java库"完全下载任何wepage并呈现内置的JavaScript,然后以编程方式访问呈现的网页(即DOM-Tree!),并将DOM树作为"HTML -资源".
(类似于firebug最终做的事情,它呈现页面,我可以访问完全呈现的DOM树,因为页面在浏览器中看起来像!相反,如果我点击"show source"我只获得JavaScript源代码这不是我想要的.我需要访问渲染的页面...)
(使用渲染我的意思是只渲染DOM树而不是视觉渲染......)
这不一定是一个单独的库,可以有几个可以一起完成的库(一个将下载,一个渲染......)但由于JavaScript的动态特性,JavaScript库也很可能必须具有某种下载器可以完全呈现任何异步JS ...
背景:在"过去的好时光"中,HttpClient(Apache Library)是构建自己非常简单的爬虫所需的一切.(像Nutch或Heretrix这样的很多cralwers仍然围绕这个核心主题构建,主要集中在标准HTML解析上,所以我无法向他们学习)我的问题是我需要抓取一些严重依赖JavaScript的网站我无法使用HttpClient进行解析,因为我之前需要执行JavaScripts ...
非常感谢你!!蒂姆