16赞

如何匹配文本节点,然后使用XPath跟随父节点

作者：殉情放开那只小兔子 | 2023-08-30 04:05

如何解决《如何匹配文本节点,然后使用XPath跟随父节点》经验，为你挑选了2个好方法。

我试图用XPath解析一些HTML.按照下面的简化XML示例,我想匹配字符串'Text 1',然后获取相关content节点的内容.


    
        Text 1
        Stuff I want
    

    
        Text 2
        Stuff I don't want

我的Python代码抛出一个摇摆不定的:

>>> from lxml import etree
>>>
>>> tree = etree.XML("Text 1Stuff 
I wantText 2Stuff I d
on't want")
>>>
>>> # get all titles
... tree.xpath('//title/text()')
['Text 1', 'Text 2']
>>>
>>> # match 'Text 1'
... tree.xpath('//title/text()="Text 1"')
True
>>>
>>> # Follow parent from selected nodes
... tree.xpath('//title/text()/../..//text()')
['Text 1', 'Stuff I want', 'Text 2', "Stuff I don't want"]
>>>
>>> # Follow parent from selected node
... tree.xpath('//title/text()="Text 1"/../..//text()')
Traceback (most recent call last):
  File "", line 1, in 
  File "lxml.etree.pyx", line 1330, in lxml.etree._Element.xpath (src/
lxml/lxml.etree.c:14542)
  File "xpath.pxi", line 287, in lxml.etree.XPathElementEvaluator.__ca
ll__ (src/lxml/lxml.etree.c:90093)
  File "xpath.pxi", line 209, in lxml.etree._XPathEvaluatorBase._handl
e_result (src/lxml/lxml.etree.c:89446)
  File "xpath.pxi", line 194, in lxml.etree._XPathEvaluatorBase._raise
_eval_error (src/lxml/lxml.etree.c:89281)
lxml.etree.XPathEvalError: Invalid type

这在XPath中可行吗？我是否需要以不同的方式表达我想要做的事情？

1> Johannes Wei..：

你想要那个吗？

//title[text()='Text 1']/../content/text()

你也可以使用// block [title ='Text 1']/content来获取相关的内容节点

2> Dimitre Nova..：

用途:

string(/*/*/title[. = 'Text 1']/following-sibling::content)

与目前公认的JohannesWeiß解决方案相比,这至少代表了两项改进:

避免使用非常昂贵的缩写"//"(通常导致整个XML文档被扫描),因为无论何时预先知道XML文档的结构,都应该这样做.

没有返回到父级(避免位置步骤"/ ..")

`/*/*/`做什么？我在一个相当大的文档上尝试它,它看起来像`//`一样慢.

@dentarg:`/*/*`选择所有元素作为文档顶部元素的子元素.它比`// someName`更快,它遍历整个文档并选择名为`"someName"`的每个元素.在这个答案中,我们可以使用更高效的表达式:`string(/*/*/title [.='Text 1'] [1]/following-sibling :: content)`答案中的表达式不应该是效率较低,给定一个优化良好的XPath处理器 - 因为每当`string()`函数提供一个节点集的参数时,它只产生该节点集的第一个节点的字符串值.

推荐阅读

程序员
Alamofire - 如何通过分段上传获得进度和完成关闭

如何解决《Alamofire-如何通过分段上传获得进度和完成关闭》经验，为你挑选了1个好方法。 ... [详细]
程序员
根据填充的必填字段构建和操作数组

如何解决《根据填充的必填字段构建和操作数组》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何将字符串资源添加到cordova项目中的strings.xml

如何解决《如何将字符串资源添加到cordova项目中的strings.xml》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用Autolayout水平对齐5个按钮的最佳方法是什么

如何解决《使用Autolayout水平对齐5个按钮的最佳方法是什么》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何正确实现抽象类？

如何解决《如何正确实现抽象类？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Espresso中测试ActionMenuItemView的图标

如何解决《如何在Espresso中测试ActionMenuItemView的图标》经验，为你挑选了1个好方法。 ... [详细]
程序员
Visual Studio Text Visualizer缺少文本

如何解决《VisualStudioTextVisualizer缺少文本》经验，为你挑选了1个好方法。 ... [详细]
程序员
覆盖UIImageView的图像getter/setter方法

如何解决《覆盖UIImageView的图像getter/setter方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
Selenium浏览器窗口大小

如何解决《Selenium浏览器窗口大小》经验，为你挑选了1个好方法。 ... [详细]
程序员
什么是需要JDK 1.6的build-helper-maven-plugin的最新版本？

如何解决《什么是需要JDK1.6的build-helper-maven-plugin的最新版本？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在aspnet5-rc1中禁用NTLM/Negotiate登录选项

如何解决《在aspnet5-rc1中禁用NTLM/Negotiate登录选项》经验，为你挑选了1个好方法。 ... [详细]
程序员
react-bootstrap-table未对齐的标题列

如何解决《react-bootstrap-table未对齐的标题列》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用Android Studio 2.0 Preview的FileOpUtils的ClassNotFoundException

如何解决《使用AndroidStudio2.0Preview的FileOpUtils的ClassNotFoundException》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何从文件读取字节到byte []数组？

如何解决《如何从文件读取字节到byte[]数组？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在启用溢出检查的情况下编译和运行优化的Rust程序

如何解决《如何在启用溢出检查的情况下编译和运行优化的Rust程序》经验，为你挑选了1个好方法。 ... [详细]
程序员
我的JS的任何方面是否会导致我的网站加载速度非常慢？

如何解决《我的JS的任何方面是否会导致我的网站加载速度非常慢？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django/python - 消除关于日期和时区意识的混淆

如何解决《Django/python-消除关于日期和时区意识的混淆》经验，为你挑选了0个好方法。 ... [详细]
程序员
MongoDB dataSize如何比storageSize更大？

如何解决《MongoDBdataSize如何比storageSize更大？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Microsoft Graph进行模拟

如何解决《使用MicrosoftGraph进行模拟》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何有效地运行多CPU内核的Django

如何解决《如何有效地运行多CPU内核的Django》经验，为你挑选了1个好方法。 ... [详细]

殉情放开那只小兔子

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章