HTML实体代码到文本

作者：保佑欣疼你的芯疼 | 2023-08-29 10:38

如何解决《HTML实体代码到文本》经验，为你挑选了2个好方法。

有没有人知道在Python中使用HTML实体代码(例如< &)将字符串转换为普通字符串(例如<&)的简单方法？

cgi.escape()将逃脱字符串(很差),但没有unescape().

1> bobince..：

HTMLParser具有标准库中的功能.遗憾的是,它没有记录:

(Python2 文档)

>>> import HTMLParser
>>> h= HTMLParser.HTMLParser()
>>> h.unescape('alpha < β')
u'alpha < \u03b2'

(Python 3 Docs)

>>> import html.parser
>>> h = html.parser.HTMLParser()
>>> h.unescape('alpha < β')
'alpha < \u03b2'

htmlentitydefs已记录在案,但要求您自己完成大量工作.

如果您只需要XML预定义实体(lt,gt,amp,quot,apos),则可以使用minidom来解析它们.如果您只需要预定义的实体而没有数字字符引用,您甚至可以使用普通的旧字符串替换速度.

以下是标准库中记录的函数,它将转义的HTML代码转换为普通字符串:http://docs.python.org/library/xml.sax.utils.html#xml.sax.saxutils.unescape

2> tghw..：

我一开始忘了标记它,但我正在使用BeautifulSoup.

在文档中挖掘,我发现:

soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES)

完全像我希望的那样.

这仅适用于BS4之前的BeautifulSoup版本.如果您使用的是BS4,则必须使用格式化程序:http://www.crummy.com/software/BeautifulSoup/bs4/doc/#output-formatters

它不适用于& 实际上,如果一个字符串包含'&',BeautifulSoup会将它转换回&,这与我希望的相反.

推荐阅读

程序员
如何从MaskedTextBox获取原始文本？

如何解决《如何从MaskedTextBox获取原始文本？》经验，为你挑选了1个好方法。 ... [详细]
程序员
params索引器的实际用法

如何解决《params索引器的实际用法》经验，为你挑选了0个好方法。 ... [详细]
程序员
具有单个子模块的多个回购

如何解决《具有单个子模块的多个回购》经验，为你挑选了1个好方法。 ... [详细]
程序员
从IList <IDictionary <string,object >>获取密钥

如何解决《从IList<IDictionary<string,object>>获取密钥》经验，为你挑选了1个好方法。 ... [详细]
程序员
Javascript数组包含/包含子数组

如何解决《Javascript数组包含/包含子数组》经验，为你挑选了1个好方法。 ... [详细]
程序员
带有数组的PHP更新语句

如何解决《带有数组的PHP更新语句》经验，为你挑选了1个好方法。 ... [详细]
程序员
设置启用了延迟扩展的环境变量

如何解决《设置启用了延迟扩展的环境变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
Go中的继承

如何解决《Go中的继承》经验，为你挑选了1个好方法。 ... [详细]
程序员
将项目导入到立即

如何解决《将项目导入到立即》经验，为你挑选了0个好方法。 ... [详细]
程序员
grails 2.4 java 8和tomcat 7.0.55.2

如何解决《grails2.4java8和tomcat7.0.55.2》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在jQuery中将整数值增加1

如何解决《如何在jQuery中将整数值增加1》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django makemigrations错误

如何解决《Djangomakemigrations错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
HTTP标头值的可能类型

如何解决《HTTP标头值的可能类型》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用Behave Python生成Junit输出报告

如何解决《如何使用BehavePython生成Junit输出报告》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在jQuery数据表上添加带有搜索图标的占位符文本

如何解决《如何在jQuery数据表上添加带有搜索图标的占位符文本》经验，为你挑选了1个好方法。 ... [详细]
程序员
Grails/Groovy正则表达式 - 如何使用(？i)使所有内容不区分大小写？

如何解决《Grails/Groovy正则表达式-如何使用(？i)使所有内容不区分大小写？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Flexbox,方形div的响应网格保持纵横比

如何解决《Flexbox,方形div的响应网格保持纵横比》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何为UINavigation栏添加阴影效果

如何解决《如何为UINavigation栏添加阴影效果》经验，为你挑选了2个好方法。 ... [详细]
程序员
删除Django admin中的默认删除操作

如何解决《删除Djangoadmin中的默认删除操作》经验，为你挑选了4个好方法。 ... [详细]
程序员
遗留系统的CQRS

如何解决《遗留系统的CQRS》经验，为你挑选了1个好方法。 ... [详细]

保佑欣疼你的芯疼

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章