9赞

Phantomjs抓取渲染JS后的网页（Python代码）

作者：爱唱歌的郭少文_ | 2022-02-22 19:57

phantomjs：我的理解就是它是一个无显示的浏览器，也就是说除了不能显示页面内容以外，浏览器能干的活儿它基本上都能干。下面我们就来利用他做点有趣的事情

最近需要爬取某网站，无奈页面都是JS渲染后生成的，普通的爬虫框架搞不定，于是想到用Phantomjs搭一个代理。

Python调用Phantomjs貌似没有现成的第三方库（如果有，请告知小编），漫步了一圈，发现只有pyspider提供了现成的方案。

简单试用了一下，感觉pyspider更像一个为新手打造的爬虫工具，好比一个老妈子，有时无微不至，有时喋喋不休。轻巧的小工具应该更受人喜爱，我也怀着一点私心，可以带着我最爱的BeautifulSoup一块儿用，而不用再学PyQuery（pyspider用来解析HTML），更不用忍受浏览器写Python的糟糕体验（偷笑）。

所以花了一个下午的时间，把pyspider当中实现Phantomjs代理的部分拆了出来，独立成一个小的爬虫模块，希望大家会喜欢（感谢binux！）。

准备工作

你当然要有Phantomjs，废话！（Linux下最好用supervisord守护，必须保持抓取的时候Phantomjs一直处于开启状态）
用项目路径下的phantomjs_fetcher.js启动：phantomjs phantomjs_fetcher.js [port]
安装tornado依赖（使用了tornado的httpclient模块）

调用是超级简单的

from tornado_fetcher import Fetcher

# 创建一个爬虫
>>> fetcher=Fetcher(
  user_agent='phantomjs', # 模拟浏览器的User-Agent
  phantomjs_proxy='http://localhost:12306', # phantomjs的地址
  poolsize=10, # 最大的httpclient数量
  async=False # 同步还是异步
  )
# 开始连接Phantomjs的代码，可以渲染JS！
>>> fetcher.fetch(url)
# 渲染成功后执行额外的JS脚本（注意用function包起来！）
>>> fetcher.fetch(url, js_script='function(){setTimeout("window.scrollTo(0,100000)}", 1000)')

代码 https://github.com/2shou/PhantomjsFetcher

推荐阅读

程序员
分析Python中的时间序列 - pandas格式错误 - statsmodels

如何解决《分析Python中的时间序列-pandas格式错误-statsmodels》经验，为你挑选了1个好方法。 ... [详细]
程序员
提取|之间的最后一个字 |

如何解决《提取|之间的最后一个字|》经验，为你挑选了1个好方法。 ... [详细]
程序员
Haskell的二进制数

如何解决《Haskell的二进制数》经验，为你挑选了1个好方法。 ... [详细]
程序员
什么是Kotlin双爆炸(!!)操作员？

如何解决《什么是Kotlin双爆炸(!!)操作员？》经验，为你挑选了2个好方法。 ... [详细]
程序员
在节点中的服务器上将XLS转换为CSV

如何解决《在节点中的服务器上将XLS转换为CSV》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用平均值X生成范围[M .... N]中的随机数

如何解决《使用平均值X生成范围[M.N]中的随机数》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何定位最后一种类型

如何解决《如何定位最后一种类型》经验，为你挑选了1个好方法。 ... [详细]
程序员
为值类型实现operator ++的正确方法是什么？

如何解决《为值类型实现operator++的正确方法是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用'if'进行无效的函数

如何解决《使用'if'进行无效的函数》经验，为你挑选了3个好方法。 ... [详细]
程序员
为什么Coldfusion在列表函数中删除了零

如何解决《为什么Coldfusion在列表函数中删除了零》经验，为你挑选了2个好方法。 ... [详细]
程序员
什么是LimitDOFILE的SystemD默认值(在CentOS7上)

如何解决《什么是LimitDOFILE的SystemD默认值(在CentOS7上)》经验，为你挑选了0个好方法。 ... [详细]
程序员
将两个数组相乘并将结果放在第三个数组中

如何解决《将两个数组相乘并将结果放在第三个数组中》经验，为你挑选了1个好方法。 ... [详细]
程序员
计算数据帧的一列中的所有NA值

如何解决《计算数据帧的一列中的所有NA值》经验，为你挑选了1个好方法。 ... [详细]
程序员
GitHub的持续部署在Azure中失败(ASP.NET 5和MVC 6)

如何解决《GitHub的持续部署在Azure中失败(ASP.NET5和MVC6)》经验，为你挑选了0个好方法。 ... [详细]
程序员
Selenium是否可以在没有GUI的情况下使用Ubuntu

如何解决《Selenium是否可以在没有GUI的情况下使用Ubuntu》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在iOS XCTest中测试UIImageView元素？

如何解决《如何在iOSXCTest中测试UIImageView元素？》经验，为你挑选了1个好方法。 ... [详细]
程序员
数据表聚合遇到NA麻烦

如何解决《数据表聚合遇到NA麻烦》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android:`RecognizerIntent.EXTRA_MAX_RESULTS`不限制结果数量

如何解决《Android:`RecognizerIntent.EXTRA_MAX_RESULTS`不限制结果数量》经验，为你挑选了0个好方法。 ... [详细]
程序员
如果找到字符串,则执行switch语句

如何解决《如果找到字符串,则执行switch语句》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android 6.0多重权限

如何解决《Android6.0多重权限》经验，为你挑选了7个好方法。 ... [详细]

爱唱歌的郭少文_

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章