19赞

用python生成的javascript生成的html

作者：yzh148448 | 2023-08-10 16:41

如何解决《用python生成的javascript生成的html》经验，为你挑选了2个好方法。

我需要用python抓一个站点.我获得与urlib模块的源HTML代码,但我需要也刮由一个JavaScript功能(这是包含在HTML源)中产生一些HTML代码.这个功能在网站中的作用是当你按下一个按钮时输出一些HTML代码.如何用python代码"按下"这个按钮？scrapy可以帮助我吗？我用firebug捕获了POST请求,但是当我尝试在url上传递它时,我收到403错误.有什么建议？

1> Paul D. Wait..：

在Python中,我认为Selenium 1.0是可行的方法.它是一个库,允许您从您选择的语言控制真正的Web浏览器.

您需要在运行脚本的计算机上安装有问题的Web浏览器,但它看起来是以编程方式查询使用大量JavaScript的网站的最可靠方式.

2> bholagabbar..：

由于这里没有全面的答案,我会继续写一个.

要刮掉JS渲染的页面,我们需要一个带有JavaScript引擎的浏览器(ei,支持JavaScript渲染)

像Mechanize,url2lib这样的选项不起作用,因为它们不支持JavaScript.

所以这就是你做的:

设置PhantomJS与Selenium一起运行.在为这两者安装依赖项之后(请参阅此),您可以使用以下代码作为示例来获取完全呈现的网站.

from selenium import webdriver

driver = webdriver.PhantomJS()
driver.get('http://jokes.cc.com/')
soupFromJokesCC = BeautifulSoup(driver.page_source) #page_source fetches page after rendering is complete
driver.save_screenshot('screen.png') # save a screenshot to disk

driver.quit()

推荐阅读

程序员
Javascript在Python中给出了相同算法的不同答案

如何解决《Javascript在Python中给出了相同算法的不同答案》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何用"yyyyMMdd Hmm"格式将字符串解析为DateTime？

如何解决《如何用"yyyyMMddHmm"格式将字符串解析为DateTime？》经验，为你挑选了1个好方法。 ... [详细]
程序员
詹金斯（Jenkins）存档失败说：“您必须提供营销或技术版本的价值。两者都找不到。”

如何解决《詹金斯（Jenkins）存档失败说：“您必须提供营销或技术版本的价值。两者都找不到。”》经验，为你挑选了0个好方法。 ... [详细]
程序员
适用于Android 4.0.3(API 15)及以下版本的TextView.getMaxLines()的替代方法

如何解决《适用于Android4.0.3(API15)及以下版本的TextView.getMaxLines()的替代方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
在copytree()完成之前,print()不会打印

如何解决《在copytree()完成之前,print()不会打印》经验，为你挑选了1个好方法。 ... [详细]
程序员
pandas.DataFrame可以有列表类型列吗？

如何解决《pandas.DataFrame可以有列表类型列吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用Spark Java返回静态html页面？

如何解决《如何使用SparkJava返回静态html页面？》经验，为你挑选了2个好方法。 ... [详细]
程序员
在Java的流中,Haskell的scanl相当于什么？

如何解决《在Java的流中,Haskell的scanl相当于什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用静态或非静态类

如何解决《使用静态或非静态类》经验，为你挑选了1个好方法。 ... [详细]
程序员
NET :: ERR_CERT_AUTHORITY_INVALID https为红色

如何解决《NET::ERR_CERT_AUTHORITY_INVALIDhttps为红色》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用公共属性创建动态对象

如何解决《使用公共属性创建动态对象》经验，为你挑选了1个好方法。 ... [详细]
程序员
不使用https的chrome 47中的getUserMedia()

如何解决《不使用https的chrome47中的getUserMedia()》经验，为你挑选了1个好方法。 ... [详细]
程序员
Symfony 3.0嵌套实体不保存

如何解决《Symfony3.0嵌套实体不保存》经验，为你挑选了1个好方法。 ... [详细]
程序员
当使用jenkins运行测试时,iOS无法启动模拟器

如何解决《当使用jenkins运行测试时,iOS无法启动模拟器》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否有可能使用杰克逊从Pojo获得价值

如何解决《是否有可能使用杰克逊从Pojo获得价值》经验，为你挑选了1个好方法。 ... [详细]
程序员
ContinueWith和TaskCancellation - 如果任务失败,如何返回默认值？

如何解决《ContinueWith和TaskCancellation-如果任务失败,如何返回默认值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
DependencyInjection是否支持服务的自动注册？

如何解决《DependencyInjection是否支持服务的自动注册？》经验，为你挑选了0个好方法。 ... [详细]
程序员
C ++ OpenCV 2.4.11：列出所有摄像机

如何解决《C++OpenCV2.4.11：列出所有摄像机》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用NSNotificationCenter时,ARC无法正常工作

如何解决《使用NSNotificationCenter时,ARC无法正常工作》经验，为你挑选了1个好方法。 ... [详细]
程序员
找不到谷歌地图片段

如何解决《找不到谷歌地图片段》经验，为你挑选了1个好方法。 ... [详细]

yzh148448

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章