6赞

使用Beautiful Soup找到特定的课程

作者：mobiledu2402852357 | 2023-09-07 10:26

如何解决《使用BeautifulSoup找到特定的课程》经验，为你挑选了1个好方法。

我正在尝试使用Beautiful Soup从Zillow那里获取住房价格数据.

我按属性ID获取网页,例如.http://www.zillow.com/homes/for_sale/18429834_zpid/

当我尝试该find_all()功能时,我没有得到任何结果:

results = soup.find_all('div', attrs={"class":"home-summary-row"})

但是,如果我使用HTML并将其缩小到我想要的位,例如:

我得到了2个结果,两个都是

在课堂上home-summary-row.所以,我的问题是,为什么我在搜索整页时没有得到任何结果？

工作范例:

from bs4 import BeautifulSoup
import requests

zpid = "18429834"
url = "http://www.zillow.com/homes/" + zpid + "_zpid/"
response = requests.get(url)
html = response.content
#html = '
 $1,342,144 '
soup = BeautifulSoup(html, "html5lib")

results = soup.find_all('div', attrs={"class":"home-summary-row"})
print(results)

alecxe.. 5

您的HTML格式不正确,在这种情况下,选择正确的解析器至关重要.在BeautifulSoup,目前有3个可用的HTML解析器,它们以不同的方式处理和处理损坏的HTML:

html.parser (内置,无需额外模块)

lxml(最快,需要lxml安装)

html5lib(最宽松,需要html5lib安装)

该之间差异的解析器文档页面详细描述了差异.在您的情况下,为了证明差异:

>>> from bs4 import BeautifulSoup
>>> import requests
>>> 
>>> zpid = "18429834"
>>> url = "http://www.zillow.com/homes/" + zpid + "_zpid/"
>>> response = requests.get(url)
>>> html = response.content
>>> 
>>> len(BeautifulSoup(html, "html5lib").find_all('div', attrs={"class":"home-summary-row"}))
0
>>> len(BeautifulSoup(html, "html.parser").find_all('div', attrs={"class":"home-summary-row"}))
3
>>> len(BeautifulSoup(html, "lxml").find_all('div', attrs={"class":"home-summary-row"}))
3

正如你所看到的,在你的情况下,无论是html.parser和lxml做的工作,但html5lib没有.

1> alecxe..：

您的HTML格式不正确,在这种情况下,选择正确的解析器至关重要.在BeautifulSoup,目前有3个可用的HTML解析器,它们以不同的方式处理和处理损坏的HTML:

html.parser (内置,无需额外模块)

lxml(最快,需要lxml安装)

html5lib(最宽松,需要html5lib安装)

该之间差异的解析器文档页面详细描述了差异.在您的情况下,为了证明差异:

>>> from bs4 import BeautifulSoup
>>> import requests
>>> 
>>> zpid = "18429834"
>>> url = "http://www.zillow.com/homes/" + zpid + "_zpid/"
>>> response = requests.get(url)
>>> html = response.content
>>> 
>>> len(BeautifulSoup(html, "html5lib").find_all('div', attrs={"class":"home-summary-row"}))
0
>>> len(BeautifulSoup(html, "html.parser").find_all('div', attrs={"class":"home-summary-row"}))
3
>>> len(BeautifulSoup(html, "lxml").find_all('div', attrs={"class":"home-summary-row"}))
3

正如你所看到的,在你的情况下,无论是html.parser和lxml做的工作,但html5lib没有.

推荐阅读

程序员
从实时视频设备捕获图像以供基于Java的应用程序使用的最佳方法是什么？

如何解决《从实时视频设备捕获图像以供基于Java的应用程序使用的最佳方法是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
您将如何对从设备中提取的一组二进制数据进行逆向工程？

如何解决《您将如何对从设备中提取的一组二进制数据进行逆向工程？》经验，为你挑选了0个好方法。 ... [详细]
程序员
推荐的Python发布/订阅/发送模块？

如何解决《推荐的Python发布/订阅/发送模块？》经验，为你挑选了1个好方法。 ... [详细]
程序员
.NET相当于Java的List.subList()？

如何解决《.NET相当于Java的List.subList()？》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用Capistrano是否安全？

如何解决《使用Capistrano是否安全？》经验，为你挑选了1个好方法。 ... [详细]
程序员
c#中Iterator和Array之间的区别

如何解决《c#中Iterator和Array之间的区别》经验，为你挑选了1个好方法。 ... [详细]
程序员
C#threading - 锁定对象

如何解决《C#threading-锁定对象》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何将NSString转换为NSData？

如何解决《如何将NSString转换为NSData？》经验，为你挑选了1个好方法。 ... [详细]
程序员
C程序中的函数格式

如何解决《C程序中的函数格式》经验，为你挑选了1个好方法。 ... [详细]
程序员
截取wpf弹出窗口的截图

如何解决《截取wpf弹出窗口的截图》经验，为你挑选了1个好方法。 ... [详细]
程序员
cvs,"文件应该删除并且仍然存在(或者再次返回)"

如何解决《cvs,"文件应该删除并且仍然存在(或者再次返回)"》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何选择一个独特的DIV并使用jQuery取消选择其余的？

如何解决《如何选择一个独特的DIV并使用jQuery取消选择其余的？》经验，为你挑选了1个好方法。 ... [详细]
程序员
C/C++ GUI应用程序的自动化测试

如何解决《C/C++GUI应用程序的自动化测试》经验，为你挑选了0个好方法。 ... [详细]
程序员
项目级c ++异常处理策略

如何解决《项目级c++异常处理策略》经验，为你挑选了1个好方法。 ... [详细]
程序员
缺少makecert.exe

如何解决《缺少makecert.exe》经验，为你挑选了3个好方法。 ... [详细]
程序员
将通用List <string>绑定到ComboBox

如何解决《将通用List<string>绑定到ComboBox》经验，为你挑选了1个好方法。 ... [详细]
程序员
需要CSS侧边栏高度以扩展内容

如何解决《需要CSS侧边栏高度以扩展内容》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何从列表中选择随机名称并将其存储在变量中？

如何解决《如何从列表中选择随机名称并将其存储在变量中？》经验，为你挑选了1个好方法。 ... [详细]
程序员
什么是.NET开发人员？

如何解决《什么是.NET开发人员？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何使用SVN hotcopy恢复存储库？

如何解决《如何使用SVNhotcopy恢复存储库？》经验，为你挑选了1个好方法。 ... [详细]

mobiledu2402852357

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章

DevBox开发工具箱 | 专业的在线开发工具网站