我正在研究Scrapy来抓取页面,但是,我无法使用javascript处理这些页面.人们建议我使用htmlunit,所以我安装了它,但我根本不知道如何使用它.任何人都可以给我一个例子(scrapy + htmlunit)吗?非常感谢.
要使用javascript处理页面,您可以使用Webkit或Selenium.
这里有一些来自snippets.scrapy.org的片段:
使用gtk/webkit/jswebkit渲染/交互式javascript
使用Scrapy和Selenium RC渲染Javascript爬虫