16赞

lxml无法解析xml(其他编码是否为utf-8)[python]

作者：135369一生真爱_890 | 2023-09-11 10:10

如何解决《lxml无法解析xml(其他编码是否为utf-8)[python]》经验，为你挑选了1个好方法。

我的代码:

import re
import requests
from lxml import etree

url = 'http://weixin.sogou.com/gzhjs?openid=oIWsFt__d2wSBKMfQtkFfeVq_u8I&ext=2JjmXOu9jMsFW8Sh4E_XmC0DOkcPpGX18Zm8qPG7F0L5ffrupfFtkDqSOm47Bv9U'

r = requests.get(url)

items = r.json()['items']

没有编码('utf-8'):

etree.fromstring(items[0]) 输出:

ValueError                                
Traceback (most recent call last)
 in ()
----> 1 etree.fromstring(items[0])

lxml.etree.pyx in lxml.etree.fromstring (src\lxml\lxml.etree.c:68121)()

parser.pxi in lxml.etree._parseMemoryDocument (src\lxml\lxml.etree.c:102435)()

ValueError: Unicode strings with encoding declaration are not supported. Please use bytes input or XML fragments without declaration.

with encode('utf-8'):

etree.fromstring(items[0].encode('utf-8')) 输出:

  File "", line unknown
XMLSyntaxError: CData section not finished
?????????:???I??, line 1, column 281

不知道解析这个xml ..

1> falsetru..：

作为解决方法,您可以encoding在将字符串传递给之前删除属性etree.fromstring:

xml = re.sub(r'\bencoding="[-\w]+"', '', items[0], count=1)
root = etree.fromstring(xml)

看到@ Lea在问题中的评论后更新:

使用显式编码指定解析器:

xml = r.json()['items'].encode('utf-8')
root = etree.fromstring(xml, parser=etree.XMLParser(encoding='utf-8'))

推荐阅读

程序员
SFML :: View倒y轴标准？如何解决它？

如何解决《SFML::View倒y轴标准？如何解决它？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Azure:您在目录中没有任何订阅

如何解决《Azure:您在目录中没有任何订阅》经验，为你挑选了1个好方法。 ... [详细]
程序员
上传从网络摄像头生成的图像到mysql数据库与PHP无法正常工作

如何解决《上传从网络摄像头生成的图像到mysql数据库与PHP无法正常工作》经验，为你挑选了0个好方法。 ... [详细]
程序员
Google App引擎应用程序的IP地址

如何解决《GoogleApp引擎应用程序的IP地址》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在编译时初始化浮点数组？

如何解决《如何在编译时初始化浮点数组？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将重复出现的图像识别为更大的图像

如何解决《将重复出现的图像识别为更大的图像》经验，为你挑选了1个好方法。 ... [详细]
程序员
Angular 2指令现在是"可扩展的"吗？

如何解决《Angular2指令现在是"可扩展的"吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Retrofit 2.0.x进行HTTP缓存

如何解决《使用Retrofit2.0.x进行HTTP缓存》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何初始化Direct到对象在C++中工作？

如何解决《如何初始化Direct到对象在C++中工作？》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么采用迭代器的构造函数需要元素为EmplaceConstructible？

如何解决《为什么采用迭代器的构造函数需要元素为EmplaceConstructible？》经验，为你挑选了1个好方法。 ... [详细]
程序员
MYSQL导入:无法从发送到GEOMETRY字段的数据中获取几何对象

如何解决《MYSQL导入:无法从发送到GEOMETRY字段的数据中获取几何对象》经验，为你挑选了0个好方法。 ... [详细]
程序员
React中的校验和是什么以及如何使用它？

如何解决《React中的校验和是什么以及如何使用它？》经验，为你挑选了1个好方法。 ... [详细]
程序员
javascript:什么是$$？

如何解决《javascript:什么是$$？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Stetho显示两个具有相同名称的列

如何解决《Stetho显示两个具有相同名称的列》经验，为你挑选了0个好方法。 ... [详细]
程序员
在C#中的父类上正确实现IDisposable

如何解决《在C#中的父类上正确实现IDisposable》经验，为你挑选了1个好方法。 ... [详细]
程序员
Rails类型如何转换array_agg（）函数的结果

如何解决《Rails类型如何转换array_agg（）函数的结果》经验，为你挑选了0个好方法。 ... [详细]
程序员
OpenLayers:如何检测地图视图是否已完全加载？

如何解决《OpenLayers:如何检测地图视图是否已完全加载？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在从url打开后清除活动中的意图数据？

如何解决《如何在从url打开后清除活动中的意图数据？》经验，为你挑选了2个好方法。 ... [详细]
程序员
无法训练神经网络解决XOR映射

如何解决《无法训练神经网络解决XOR映射》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Camel中动态添加和启动路由？

如何解决《如何在Camel中动态添加和启动路由？》经验，为你挑选了1个好方法。 ... [详细]

135369一生真爱_890

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章