互联网上的页面抓取似乎对我来说有点障碍,因为有越来越多的网站依赖于JavaScript来渲染屏幕的一部分.
在我看来,有这么多的开源布局和JavaScript渲染器(如WebKit,Gecko和Chromium + V8),有人必须制作一个工具来下载页面并呈现其JavaScript而无需运行实际的浏览器.但是,我没有找到我正在寻找的搜索内容 - 我找到了像Selenium-rc这样的工具,但它们依赖于正在运行的浏览器.我对可以执行以下一项(或两项)的任何工具或库感兴趣:
一个可以从命令行(*nix)运行的程序,它在给定页面源的情况下返回由某些JS引擎呈现的页面源.
使用特定语言的集成支持,允许(轻松地)将页面源传递给它并返回由某些JS引擎呈现的页面源.
我认为#1在一般意义上是可取的,但如果工具以我想要使用的语言存在,那么#2会更有用.而且,我并不关心特定的JS引擎 - 任何相对现代的引擎都会做.有什么?