17赞

使用lxml(在python中)处理XHTML文档时,为什么xpath不起作用？

作者：喜生-Da | 2023-09-02 18:38

如何解决《使用lxml(在python中)处理XHTML文档时,为什么xpath不起作用？》经验，为你挑选了2个好方法。

我正在测试以下测试文档:




   
        hi there

如果我使用lxml.html解析文档,我可以使用xpath获取IMG:

>>> root = lxml.html.fromstring(doc)
>>> root.xpath("//img")
[]

但是,如果我将文档解析为XML并尝试获取IMG标记,则会得到一个空结果:

>>> tree = etree.parse(StringIO(doc))
>>> tree.getroot().xpath("//img")
[]

我可以直接导航到元素:

>>> tree.getroot().getchildren()[1].getchildren()[0]

但是,这当然不能帮助我处理任意文件.我也希望能够查询etree来获得一个直接识别这个元素的xpath表达式,从技术上讲,我可以这样做:

>>> tree.getpath(tree.getroot().getchildren()[1].getchildren()[0])
'/*/*[2]/*'
>>> tree.getroot().xpath('/*/*[2]/*')
[]

但是,该xpath显然对解析任意文档没有用.

显然我在这里遗漏了一些关键问题,但我不知道它是什么.我最好的猜测是它与命名空间有关,但是唯一定义的命名空间是默认的,我不知道在命名空间方面我还需要考虑什么.

那么,我错过了什么？

1> Ned Batcheld..：

问题是名称空间.当作为XML解析,img标签是在http://www.w3.org/1999/xhtml命名空间,因为这是该元素的默认命名空间.你要求没有命名空间的img标签.

试试这个:

>>> tree.getroot().xpath(
...     "//xhtml:img", 
...     namespaces={'xhtml':'http://www.w3.org/1999/xhtml'}
...     )
[]

2> Dimitre Nova..：

XPath认为所有未加前缀的名称都在"无名称空间"中.

特别是规范说:

"使用表达式上下文中的命名空间声明将节点测试中的QName扩展为扩展名.这与开始和结束标记中的元素类型名称的扩展相同,除了使用xmlns声明的默认命名空间是未使用:如果QName没有前缀,则名称空间URI为null(这与扩展属性名称的方式相同)."

请参阅这两个问题的详细解释及其解决方案:此处和此处.解决方案是将前缀(与正在使用的API)相关联,并使用它来为XPath表达式中任何未加前缀的名称添加前缀.

希望这有帮助.

干杯,

Dimitre Novatchev

推荐阅读

程序员
是否可以在chrome中使浏览器看起来像打印页面

如何解决《是否可以在chrome中使浏览器看起来像打印页面》经验，为你挑选了1个好方法。 ... [详细]
程序员
控件模板:如何创建绑定

如何解决《控件模板:如何创建绑定》经验，为你挑选了1个好方法。 ... [详细]
程序员
点击一个可疑的div剧照外面的焦点？

如何解决《点击一个可疑的div剧照外面的焦点？》经验，为你挑选了2个好方法。 ... [详细]
程序员
箭头功能中的默认参数值

如何解决《箭头功能中的默认参数值》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Gradle预编译JSP

如何解决《使用Gradle预编译JSP》经验，为你挑选了0个好方法。 ... [详细]
程序员
配置Mocha来查找`.jsx` /`.es6`文件

如何解决《配置Mocha来查找`.jsx`/`.es6`文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
即使AngularJS和PHP的凭据不正确,登录仍然会指示

如何解决《即使AngularJS和PHP的凭据不正确,登录仍然会指示》经验，为你挑选了0个好方法。 ... [详细]
程序员
可以在PHP7下运行symfony 1.4吗？

如何解决《可以在PHP7下运行symfony1.4吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在PHP页面上从orientdb访问数据？

如何解决《如何在PHP页面上从orientdb访问数据？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在哪里可以找到已翻译的Linq to Entity查询到Sql

如何解决《在哪里可以找到已翻译的LinqtoEntity查询到Sql》经验，为你挑选了2个好方法。 ... [详细]
程序员
django在已清理的数据上形成预取

如何解决《django在已清理的数据上形成预取》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Unity插件中使用android jar中的context.getClassLoader.getResaurceAsStream无法访问图像

如何解决《在Unity插件中使用androidjar中的context.getClassLoader.getResaurceAsStream无法访问图像》经验，为你挑选了0个好方法。 ... [详细]
程序员
mvn release:在java 8中执行失败 - 添加了javadoc插件

如何解决《mvnrelease:在java8中执行失败-添加了javadoc插件》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用数组值将数组转换为不同的结构

如何解决《使用数组值将数组转换为不同的结构》经验，为你挑选了1个好方法。 ... [详细]
程序员
"使用HttpClient根据验证程序,远程证书无效"

如何解决《"使用HttpClient根据验证程序,远程证书无效"》经验，为你挑选了1个好方法。 ... [详细]
程序员
awk在输出中打印一个额外的行{print $ x}

如何解决《awk在输出中打印一个额外的行{print$x}》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何为qtcreator编写调试助手？

如何解决《如何为qtcreator编写调试助手？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Angular ui-router:按下浏览器中的后退按钮,停止控制器重新加载

如何解决《Angularui-router:按下浏览器中的后退按钮,停止控制器重新加载》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么不能在编译时解决运行时多态？

如何解决《为什么不能在编译时解决运行时多态？》经验，为你挑选了5个好方法。 ... [详细]
程序员
Web服务连接超时和请求超时之间的差异

如何解决《Web服务连接超时和请求超时之间的差异》经验，为你挑选了1个好方法。 ... [详细]

喜生-Da

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章