20赞

从网页获取国际字符？

作者：刘美娥94662 | 2023-09-05 18:24

如何解决《从网页获取国际字符？》经验，为你挑选了1个好方法。

我想使用简单的python regexp从足球(足球)网页上删除一些信息.问题在于,像第一个小伙子,ÄRITALO这样的球员出现了ÄÄ RITALO!
也就是说,html对特殊字符使用转义标记,例如Ä

有没有一种简单的方法将html读入正确的python字符串？如果它是XML/XHTML那么很容易,解析器会这样做.

1> dF...：

我建议使用BeautifulSoup进行HTML抓取.您还需要告诉它将HTML实体转换为相应的Unicode字符,如下所示:

>>> from BeautifulSoup import BeautifulSoup    
>>> html = "ÄÄRITALO!"
>>> soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES)
>>> print soup.contents[0].string
ÄÄRITALO!

(如果标准编解码器模块包含一个编解码器,那将是很好的,这样你可以做 "some_string".decode('html_entities')但不幸的是它没有!)

编辑: 另一个解决方案:Python开发人员Fredrik Lundh(elementtree的作者,除其他外)有一个功能来取消他的网站上的HTML实体,它与十进制,十六进制和命名实体一起工作(BeautifulSoup不适用于六角形实体).

推荐阅读

程序员
laravel querybuilder如何在其中使用函数

如何解决《laravelquerybuilder如何在其中使用函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用自动增量字符创建自定义列

如何解决《如何使用自动增量字符创建自定义列》经验，为你挑选了0个好方法。 ... [详细]
程序员
在擦除 - 删除习语中使用UnaryPredicate的否定

如何解决《在擦除-删除习语中使用UnaryPredicate的否定》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用select元素从datatable导出数据会从select元素导出每个选项

如何解决《使用select元素从datatable导出数据会从select元素导出每个选项》经验，为你挑选了1个好方法。 ... [详细]
程序员
理解"cat proc/net/udp"

如何解决《理解"catproc/net/udp"》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用TypeConverter将字符串转换为字符串数组

如何解决《使用TypeConverter将字符串转换为字符串数组》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从PHP中的html页面中删除H2和H3标签？

如何解决《如何从PHP中的html页面中删除H2和H3标签？》经验，为你挑选了1个好方法。 ... [详细]
程序员
转移具有应用内订阅的iOS应用

如何解决《转移具有应用内订阅的iOS应用》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用jQuery显示JSON数据

如何解决《使用jQuery显示JSON数据》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何每1分钟在后台运行服务

如何解决《如何每1分钟在后台运行服务》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何用h5py区分HDF5数据集和组？

如何解决《如何用h5py区分HDF5数据集和组？》经验，为你挑选了2个好方法。 ... [详细]
程序员
为什么有std :: not1()和std :: not2()而不是一个重载的std :: not_()？

如何解决《为什么有std::not1()和std::not2()而不是一个重载的std::not_()？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何检查动态数组是否为空？

如何解决《如何检查动态数组是否为空？》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么要使用CDN(内容分发网络)？

如何解决《为什么要使用CDN(内容分发网络)？》经验，为你挑选了1个好方法。 ... [详细]
程序员
REST API - ALPS UI(Swagger UI之类)

如何解决《RESTAPI-ALPSUI(SwaggerUI之类)》经验，为你挑选了0个好方法。 ... [详细]
程序员
ImportError:无法导入名称_UNPACK_INT

如何解决《ImportError:无法导入名称_UNPACK_INT》经验，为你挑选了1个好方法。 ... [详细]
程序员
Xamarin表单 - Webview没有显示出来

如何解决《Xamarin表单-Webview没有显示出来》经验，为你挑选了1个好方法。 ... [详细]
程序员
Symfony3:在Windows中开发,在Linux中部署.目录分隔

如何解决《Symfony3:在Windows中开发,在Linux中部署.目录分隔》经验，为你挑选了1个好方法。 ... [详细]
程序员
Angular 2:从装饰器访问注入的依赖项

如何解决《Angular2:从装饰器访问注入的依赖项》经验，为你挑选了0个好方法。 ... [详细]
程序员
替换已编译的.class文件中的方法

如何解决《替换已编译的.class文件中的方法》经验，为你挑选了0个好方法。 ... [详细]

刘美娥94662

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章