17赞

Selenium结合BeautifulSoup4编写简单的python爬虫

作者：郑谊099_448 | 2022-01-05 16:24

这篇文章主要介绍了Selenium结合BeautifulSoup4编写简单的python爬虫，帮助大家更好的理解和学习python爬虫的相关知识，感兴趣的朋友可以了解下

在学会了抓包，接口请求(如requests库）和Selenium的一些操作方法后，基本上就可以编写爬虫，爬取绝大多数网站的内容。

在爬虫领域，Selenium永远是最后一道防线。从本质上来说，访问网页实际上就是一个接口请求。请求url后，返回的是网页的源代码。

我们只需要解析html或者通过正则匹配提取出我们需要的数据即可。

有些网站我们可以使用requests.get(url)，得到的响应文本中获取到所有的数据。而有些网页数据是通过JS动态加载到页面中的。使用requests获取不到或者只能获取到一部分数据。
此时我们就可以使用selenium打开页面来，使用driver.page_source来获取JS执行完后的完整源代码。

例如，我们要爬取，diro官网女包的名称，价格，url,图片等数据，可以使用requests先获取到网页源代码：
访问网页，打开开发者工具，我们可以看到所有的商品都在一个

标签里，展开这个li标签，我们可找到商品名称，价格，url，图片链接等信息

从html格式的源码中提取数据，有多种选择，可以使用xml.etree等等方式，bs4是一个比较方便易用的html解析库，配合lxml解析速度比较快。

bs4的使用方法为

from bs4 import BeautifulSoup

soup = BeautifulSoup(网页源代码字符串,'lxml')

soup.find(...).find(...)
soup.findall()
soup.select('css selector语法')

soup.find()可以通过节点属性进行查找，如，soup.find('div', id='节点id')或soup.find('li', class_='某个类名')或soup.find('标签名', 属性=属性值)，当找到一个节点后，还可以使用这个节点继续在其子节点中查找。
soup.find_all()是查找多个，同样属性的节点，返回一个列表。
soup.select()是使用css selector语法查找，返回一个列表。

以下为示例代码：

from selenium import webdriver
from bs4 import BeautifulSoup

driver = webdriver.Chrome()
driver.get('https://www.dior.cn/zh_cn/女士精品/皮具系列/所有手提包')
soup = BeautifulSoup(driver.page_source, 'lxml')

products = soup.select('li.is-product')
for product in products:
 name = product.find('span', class_='product-title').text.strip()
 price = product.find('span', class_='price-line').text.replace('￥', '').replace(',','')
 url = 'https://www.dior.cn' + product.find('a', class_='product-link').attrs['href']
 img = product.find('img').attrs['src']
 sku = img.split('/')[-1]
 print(name, sku, price)

driver.quit()

运行结果，如下图：

注：本例中，也可以使用requests.get()获取网页源代码，格式和使用selenium加载的稍有不同。

一般简单爬虫编写的步骤为：

进入列表页，打开开发者工具，刷新页面及向下滚动，查看新产品加载，是否能抓到XHR数据接口（直接返回JSON格式所有产品数据的接口）
如果有这种接口，尝试修改参数中的分页值，和请求总数值，看看是否能从一个接口返回所有的商品数据
如果只有Doc类型的接口返回页面，尝试使用requests.get()请求页面，分析响应文本，是否包含所有商品数据
如果requests获取不到商品数据或数据不全可以使用selenium加载页面，然后使用bs4解析提取，如果有多个页面，循环逐个操作即可。

以上就是Selenium结合BeautifulSoup4编写简单的python爬虫的详细内容，更多关于python 爬虫的资料请关注其它相关文章！

推荐阅读

程序员
发送带有电子webview的发布请求

如何解决《发送带有电子webview的发布请求》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么编程语言不使用简化的布尔表达式？

如何解决《为什么编程语言不使用简化的布尔表达式？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何使用按钮启用/禁用文本框

如何解决《如何使用按钮启用/禁用文本框》经验，为你挑选了1个好方法。 ... [详细]
程序员
对于标准库实现来说,专门化一个带有子概念的概念上的函数是否合法？

如何解决《对于标准库实现来说,专门化一个带有子概念的概念上的函数是否合法？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如果我将JavaScript事件绑定到一个元素,然后删除该元素,该事件会发生什么？

如何解决《如果我将JavaScript事件绑定到一个元素,然后删除该元素,该事件会发生什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
放大Chrome后,svg模式中的图像变得模糊

如何解决《放大Chrome后,svg模式中的图像变得模糊》经验，为你挑选了0个好方法。 ... [详细]
程序员
python中的文字是什么？

如何解决《python中的文字是什么？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何使用gitlab进行let的加密？

如何解决《如何使用gitlab进行let的加密？》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何在bash数组的所有条目中用下划线替换空格

如何解决《如何在bash数组的所有条目中用下划线替换空格》经验，为你挑选了1个好方法。 ... [详细]
程序员
Ember 2:截断文本并添加省略号

如何解决《Ember2:截断文本并添加省略号》经验，为你挑选了1个好方法。 ... [详细]
程序员
休眠验证+自定义约束+ java.lang.NullPointerException

如何解决《休眠验证+自定义约束+java.lang.NullPointerException》经验，为你挑选了0个好方法。 ... [详细]
程序员
你如何调试react-native使用的自定义android模块

如何解决《你如何调试react-native使用的自定义android模块》经验，为你挑选了1个好方法。 ... [详细]
程序员
npm递归更新包

如何解决《npm递归更新包》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在Django中缓存模型方法？

如何解决《如何在Django中缓存模型方法？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Java在同一组件上摆动不同的布局

如何解决《Java在同一组件上摆动不同的布局》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用R中的lubridate包找到一年中的某一天

如何解决《使用R中的lubridate包找到一年中的某一天》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用JSX重复一次元素n次

如何解决《如何使用JSX重复一次元素n次》经验，为你挑选了3个好方法。 ... [详细]
程序员
MouseHover在鼠标关闭时不会触发

如何解决《MouseHover在鼠标关闭时不会触发》经验，为你挑选了0个好方法。 ... [详细]
程序员
Go - 如何增加最大Stdin输入长度？

如何解决《Go-如何增加最大Stdin输入长度？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python LDAP写入Active Directory的属性

如何解决《PythonLDAP写入ActiveDirectory的属性》经验，为你挑选了0个好方法。 ... [详细]

郑谊099_448

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章