用于HTML解析的Python正则表达式(BeautifulSoup)

作者：重庆制造漫画社 | 2023-09-05 18:02

如何解决《用于HTML解析的Python正则表达式(BeautifulSoup)》经验，为你挑选了4个好方法。

我想在HTML中获取隐藏输入字段的值.

我想在Python中编写一个正则表达式,它将返回值fooId,因为我知道HTML中的行遵循格式

有人可以在Python中提供一个示例来解析HTML的值吗？

1> Vinko Vrsalo..：

对于这个特殊情况,BeautifulSoup比正则表达式更难写,但它更强大......我只是贡献了BeautifulSoup示例,因为你已经知道使用哪个正则表达式:-)

from BeautifulSoup import BeautifulSoup

#Or retrieve it from the web, etc. 
html_data = open('/yourwebsite/page.html','r').read()

#Create the soup object from the HTML data
soup = BeautifulSoup(html_data)
fooId = soup.find('input',name='fooId',type='hidden') #Find the proper tag
value = fooId.attrs[2][1] #The value of the third attribute of the desired tag 
                          #or index it directly via fooId['value']

2> 小智..：

我同意Vinko BeautifulSoup是要走的路.不过我建议使用fooId['value']来获取属性,而不是依靠值是第三属性.

from BeautifulSoup import BeautifulSoup
#Or retrieve it from the web, etc.
html_data = open('/yourwebsite/page.html','r').read()
#Create the soup object from the HTML data
soup = BeautifulSoup(html_data)
fooId = soup.find('input',name='fooId',type='hidden') #Find the proper tag
value = fooId['value'] #The value attribute

3> Cody Brociou..：

import re
reg = re.compile('')
value = reg.search(inputHTML).group(1)
print 'Value is', value

4> Orion Edward..：

解析是你真的不想自己动手的地方之一,如果你可以避免它,因为你将追逐边缘案例和bug多年来会来

我建议使用BeautifulSoup.它具有非常好的声誉,从文档中看起来很容易使用.

推荐阅读

程序员
GIT推送错误 - 重复请求

如何解决《GIT推送错误-重复请求》经验，为你挑选了1个好方法。 ... [详细]
程序员
node.js可以排队多少个事件？

如何解决《node.js可以排队多少个事件？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何获得火花工作的指标？

如何解决《如何获得火花工作的指标？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在通过Openpyxl创建的图表中显示数据标签

如何解决《如何在通过Openpyxl创建的图表中显示数据标签》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用Ruby 2.2.3和rest-client保存文件

如何解决《如何使用Ruby2.2.3和rest-client保存文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
流程中的集合执行策略

如何解决《流程中的集合执行策略》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从HDFS中删除文件？

如何解决《如何从HDFS中删除文件？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Android TalkBack专注于透明层

如何解决《AndroidTalkBack专注于透明层》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将ComboBox的SelectedItem绑定到作为ItemsSource项目副本的对象？

如何解决《如何将ComboBox的SelectedItem绑定到作为ItemsSource项目副本的对象？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用Conda安装MySQLdb？

如何解决《如何使用Conda安装MySQLdb？》经验，为你挑选了3个好方法。 ... [详细]
程序员
使用python joblib访问和更改全局数组

如何解决《使用pythonjoblib访问和更改全局数组》经验，为你挑选了0个好方法。 ... [详细]
程序员
上传到VPP商店灰色

如何解决《上传到VPP商店灰色》经验，为你挑选了1个好方法。 ... [详细]
程序员
页面加载时元素高度的差异

如何解决《页面加载时元素高度的差异》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在Sage中获得给定长度的素数？

如何解决《如何在Sage中获得给定长度的素数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
HTTP/2和CNAME如何协同工作？

如何解决《HTTP/2和CNAME如何协同工作？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Google Cloud Dataproc配置问题

如何解决《GoogleCloudDataproc配置问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
短绒和验证器有什么区别？

如何解决《短绒和验证器有什么区别？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Bootstrap 4 - 卡列中的响应卡

如何解决《Bootstrap4-卡列中的响应卡》经验，为你挑选了2个好方法。 ... [详细]
程序员
Vim语法高亮 - 从模式中排除特定文本

如何解决《Vim语法高亮-从模式中排除特定文本》经验，为你挑选了0个好方法。 ... [详细]
程序员
Lambda微积分减少步骤

如何解决《Lambda微积分减少步骤》经验，为你挑选了1个好方法。 ... [详细]

重庆制造漫画社

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章