使用已打开的网页(含硒)到beautifulsoup？

作者：coco2冰冰 | 2023-09-06 16:48

如何解决《使用已打开的网页(含硒)到beautifulsoup？》经验，为你挑选了1个好方法。

我打开了一个网页,并使用webdriver代码登录.使用webdriver是因为在我设置为scrape之前页面需要登录和各种其他操作.

目的是从这个打开的页面中抓取数据.需要找到链接并打开它们,因此selenium webdriver和BeautifulSoup之间会有很多组合.

我查看了bs4的文档,并BeautifulSoup(open("ccc.html"))抛出了一个错误

soup = bs4.BeautifulSoup(open("https://m/search.mp?ss=Pr+Dn+Ts"))

OSError:[Errno 22]参数无效:' https://m/search.mp？ss = Pr + Dn + Ts '

我认为这是因为它不是.html？

1> alecxe..：

您正在尝试通过网址打开页面.open()不会这样做,使用urlopen():

from urllib.request import urlopen  # Python 3
# from urllib2 import urlopen  # Python 2

url = "your target url here"
soup = bs4.BeautifulSoup(urlopen(url), "html.parser")

或者,为人类使用HTTP - requests库:

import requests

response = requests.get(url)
soup = bs4.BeautifulSoup(response.content, "html.parser")

另请注意,强烈建议明确指定解析器 - 我html.parser在这种情况下使用过,还有其他解析器可用.

我想使用完全相同的页面(相同的实例)

一种常见的方法是获取driver.page_source并传递它以BeautifulSoup进一步解析:

from bs4 import BeautifulSoup
from selenium import webdriver

driver = webdriver.Firefox()
driver.get(url)

# wait for page to load..

source = driver.page_source
driver.quit()  # remove this line to leave the browser open

soup = BeautifulSoup(source, "html.parser")

我想我没有正确解释,页面已经打开了.:(我想使用由selenium打开的完全相同的页面(相同的实例).在这两个例子中,我假设一个新的基于url的请求正在打开/获取数据.

推荐阅读

程序员
如何应对竞争条件

如何解决《如何应对竞争条件》经验，为你挑选了1个好方法。 ... [详细]
程序员
一个TickObject到底是什么？如何防止它成为内存泄漏？

如何解决《一个TickObject到底是什么？如何防止它成为内存泄漏？》经验，为你挑选了1个好方法。 ... [详细]
程序员
3-D笛卡尔指向2-D半球形并计算2-D Voronoi单元的面积

如何解决《3-D笛卡尔指向2-D半球形并计算2-DVoronoi单元的面积》经验，为你挑选了0个好方法。 ... [详细]
程序员
对象初始值设定项中的属性赋值与C#6中的自动属性不在同一级别上

如何解决《对象初始值设定项中的属性赋值与C#6中的自动属性不在同一级别上》经验，为你挑选了1个好方法。 ... [详细]
程序员
'List <T>'可能不包含'Object'类型的类型对象

如何解决《'List<T>'可能不包含'Object'类型的类型对象》经验，为你挑选了1个好方法。 ... [详细]
程序员
Sequelize - 如何搜索多个列？

如何解决《Sequelize-如何搜索多个列？》经验，为你挑选了1个好方法。 ... [详细]
程序员
错误的CSS风格

如何解决《错误的CSS风格》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从Windows窗体创建.exe文件

如何解决《如何从Windows窗体创建.exe文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
获取pandas数据帧中所有唯一行的计数

如何解决《获取pandas数据帧中所有唯一行的计数》经验，为你挑选了1个好方法。 ... [详细]
程序员
文件扩展的正则表达式

如何解决《文件扩展的正则表达式》经验，为你挑选了0个好方法。 ... [详细]
程序员
有没有办法在PIL中指定矩形的宽度？

如何解决《有没有办法在PIL中指定矩形的宽度？》经验，为你挑选了2个好方法。 ... [详细]
程序员
什么是MVC 6中@ Scripts.Render的替代品

如何解决《什么是MVC6中@Scripts.Render的替代品》经验，为你挑选了1个好方法。 ... [详细]
程序员
虚拟继承的价格是多少？

如何解决《虚拟继承的价格是多少？》经验，为你挑选了1个好方法。 ... [详细]
程序员
CSS转换旋转仅在div向左浮动时才起作用

如何解决《CSS转换旋转仅在div向左浮动时才起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用UIAppearance更改所有UITableViewCell的文本颜色

如何解决《使用UIAppearance更改所有UITableViewCell的文本颜色》经验，为你挑选了0个好方法。 ... [详细]
程序员
根据JavaScript中的长度将字符串转换为一系列下划线

如何解决《根据JavaScript中的长度将字符串转换为一系列下划线》经验，为你挑选了1个好方法。 ... [详细]
程序员
Git Push to Rails Production给出响应你的Ruby版本是1.9.3,但你的Gemfile指定2.2.2当Ruby Version是2.2.2

如何解决《GitPushtoRailsProduction给出响应你的Ruby版本是1.9.3,但你的Gemfile指定2.2.2当RubyVersion是2.2.2》经验，为你挑选了0个好方法。 ... [详细]
程序员
我可以对两个不同的应用程序使用相同的Firebase吗？

如何解决《我可以对两个不同的应用程序使用相同的Firebase吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Xamarin.forms上播放声音？

如何解决《如何在Xamarin.forms上播放声音？》经验，为你挑选了3个好方法。 ... [详细]
程序员
使用Retrofit反序列化带有文本和子标签的XML标记

如何解决《使用Retrofit反序列化带有文本和子标签的XML标记》经验，为你挑选了1个好方法。 ... [详细]

coco2冰冰

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章