19赞

将HTML实体转换为Unicode,反之亦然

作者：贴进你的心聆听你的世界 | 2023-08-28 16:36

如何解决《将HTML实体转换为Unicode,反之亦然》经验，为你挑选了4个好方法。

至于"反之亦然"(我需要自己,让我找到这个问题,这没有帮助,随后另一个有答案的网站):

u'some string'.encode('ascii', 'xmlcharrefreplace')

将返回一个纯字符串,其中任何非ascii字符都转换为XML(HTML)实体.

1> Isaac..：

至于"反之亦然"(我需要自己,让我找到这个问题,这没有帮助,随后另一个有答案的网站):

u'some string'.encode('ascii', 'xmlcharrefreplace')

将返回一个纯字符串,其中任何非ascii字符都转换为XML(HTML)实体.

2> hekevintran..：

你需要有BeautifulSoup.

from BeautifulSoup import BeautifulStoneSoup
import cgi

def HTMLEntitiesToUnicode(text):
    """Converts HTML entities to unicode.  For example '&' becomes '&'."""
    text = unicode(BeautifulStoneSoup(text, convertEntities=BeautifulStoneSoup.ALL_ENTITIES))
    return text

def unicodeToHTMLEntities(text):
    """Converts unicode to HTML entities.  For example '&' becomes '&'."""
    text = cgi.escape(text).encode('ascii', 'xmlcharrefreplace')
    return text

text = "&, ®, <, >, ¢, £, ¥, €, §, ©"

uni = HTMLEntitiesToUnicode(text)
htmlent = unicodeToHTMLEntities(uni)

print uni
print htmlent
# &, ®, <, >, ¢, £, ¥, €, §, ©
# &, ®, <, >, ¢, £, ¥, €, §, ©

BeautifulSoup api已经改变了.请参阅最新的[doc](http://www.crummy.com/software/BeautifulSoup/bs4/doc/).

迫切需要Python3更新。

3> mscharf..：

Python 2.7和BeautifulSoup4的更新

Unescape - 用于解码的Unicode HTML htmlparser(Python 2.7标准库):

>>> escaped = u'Monsieur le Curé of the «Notre-Dame-de-Grâce» neighborhood'
>>> from HTMLParser import HTMLParser
>>> htmlparser = HTMLParser()
>>> unescaped = htmlparser.unescape(escaped)
>>> unescaped
u'Monsieur le Cur\xe9 of the \xabNotre-Dame-de-Gr\xe2ce\xbb neighborhood'
>>> print unescaped
Monsieur le Curé of the «Notre-Dame-de-Grâce» neighborhood

Unescape - 使用bs4(BeautifulSoup4)unicode的Unicode HTML :

>>> html = '''Monsieur le Curé of the «Notre-Dame-de-Grâce» neighborhood'''
>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup(html)
>>> soup.text
u'Monsieur le Cur\xe9 of the \xabNotre-Dame-de-Gr\xe2ce\xbb neighborhood'
>>> print soup.text
Monsieur le Curé of the «Notre-Dame-de-Grâce» neighborhood

Escape - 使用bs4(BeautifulSoup4)将Unicode解码为HTML :

>>> unescaped = u'Monsieur le Curé of the «Notre-Dame-de-Grâce» neighborhood'
>>> from bs4.dammit import EntitySubstitution
>>> escaper = EntitySubstitution()
>>> escaped = escaper.substitute_html(unescaped)
>>> escaped
u'Monsieur le Curé of the «Notre-Dame-de-Grâce» neighborhood'

4> AXO..：

作为hekevintran回答表明,你可以使用cgi.escape(s)编码蜇伤,但要注意报价是编码默认是在功能虚假,它可能是一个好主意,通过quote=True旁边的字符串关键字参数.但即使通过quote=True,该函数也不会转义单引号("'")(由于这些问题,该函数自版本3.2以来已被弃用)

有人建议使用html.escape(s)而不是cgi.escape(s).(3.2版中新增功能)

也html.unescape(s)已在3.4版中引入.

所以在python 3.4中你可以:

使用html.escape(text).encode('ascii', 'xmlcharrefreplace').decode()特殊字符转换为HTML实体.

而html.unescape(text)转换的HTML实体回纯文本表示.

推荐阅读

程序员
Application.Restart如何在.NET中运行？

如何解决《Application.Restart如何在.NET中运行？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在app delegate之外注册远程通知

如何解决《在appdelegate之外注册远程通知》经验，为你挑选了3个好方法。 ... [详细]
程序员
可以使用代码块作为C宏的参数吗？

如何解决《可以使用代码块作为C宏的参数吗？》经验，为你挑选了2个好方法。 ... [详细]
程序员
保留QTextEdit中的光标位置

如何解决《保留QTextEdit中的光标位置》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过ruby OpenURI下载文件时间歇性EOFError

如何解决《通过rubyOpenURI下载文件时间歇性EOFError》经验，为你挑选了0个好方法。 ... [详细]
程序员
返回Mvc.JsonResult并设置Response.StatusCode

如何解决《返回Mvc.JsonResult并设置Response.StatusCode》经验，为你挑选了1个好方法。 ... [详细]
程序员
取消定义在定义值之前在Enum中定义int变量

如何解决《取消定义在定义值之前在Enum中定义int变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
Xcode自动完成以显示"包含"而非"开始时"的建议

如何解决《Xcode自动完成以显示"包含"而非"开始时"的建议》经验，为你挑选了0个好方法。 ... [详细]
程序员
RxJS教程不假设熟悉反应式编程概念或Rx .NET？

如何解决《RxJS教程不假设熟悉反应式编程概念或Rx.NET？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何设置默认URL /路由？

如何解决《如何设置默认URL/路由？》经验，为你挑选了1个好方法。 ... [详细]
程序员
删除Vertica数据库中的重复行

如何解决《删除Vertica数据库中的重复行》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用twilio从MS Access发送消息？

如何解决《如何使用twilio从MSAccess发送消息？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将CSS规则标记为不太重要？

如何解决《将CSS规则标记为不太重要？》经验，为你挑选了1个好方法。 ... [详细]
程序员
C# - Powershell AddPSSnapin导致错误

如何解决《C#-PowershellAddPSSnapin导致错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
逻辑运算符&&和javascript中的两个字符串

如何解决《逻辑运算符&&和javascript中的两个字符串》经验，为你挑选了3个好方法。 ... [详细]
程序员
jQuery:从下拉结果中删除ui-autocomplete样式

如何解决《jQuery:从下拉结果中删除ui-autocomplete样式》经验，为你挑选了1个好方法。 ... [详细]
程序员
忽略Racket中的多个返回值

如何解决《忽略Racket中的多个返回值》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么要在静态锁定成员而不是类上进行同步？

如何解决《为什么要在静态锁定成员而不是类上进行同步？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何获取指向std :: vector的最后插入元素的指针？

如何解决《如何获取指向std::vector的最后插入元素的指针？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在django模板中使用href属性

如何解决《如何在django模板中使用href属性》经验，为你挑选了1个好方法。 ... [详细]

贴进你的心聆听你的世界

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章