14赞

通过XPath解析HTML

作者：勤奋的瞌睡猪_715 | 2023-09-02 20:53

如何解决《通过XPath解析HTML》经验，为你挑选了4个好方法。

在.Net中,我找到了这个很棒的库,HtmlAgilityPack,它允许您使用XPath轻松解析非格式良好的HTML.我已经在我的.Net站点中使用了这几年,但是我不得不为我的Python,Ruby和其他项目解决更多痛苦的库.是否有人知道其他语言的类似库？

1> Jagtesh Chad..：

我很惊讶没有提到lxml.它速度极快,可以在允许CPython库的任何环境中工作.

以下是使用lxml通过XPATH解析HTML的方法.

>>> from lxml import etree
>>> doc = ''
>>> tree = etree.HTML(doc)

>>> r = tree.xpath('/foo/bar')
>>> len(r)
1
>>> r[0].tag
'bar'

>>> r = tree.xpath('bar')
>>> r[0].tag
'bar'

并不意味着你可以回答它.理想情况下,即使经过很长一段时间,最好的答案也会冒出来.顺便说一句,你的答案只解析XML,而不是HTML.你应该包含一个`HTMLParser`实例.

2> Aaron Maenpa..：

在python中,ElementTidy解析标签汤并生成一个元素树,允许使用XPath进行查询:

>>> from elementtidy.TidyHTMLTreeBuilder import TidyHTMLTreeBuilder as TB
>>> tb = TB()
>>> tb.feed("Hello world")
>>> e= tb.close()
>>> e.find(".//{http://www.w3.org/1999/xhtml}p")

**危险!**使用BeautifulSoup解析器代替lxml,因为elementtidy将阻塞未声明的命名空间.我学到了很多东西!

3> Ned Batcheld..：

BeautifulSoup是一个很好的Python库,用于以干净的方式处理凌乱的HTML.

BeautifulSoup不使用xpath :)

4> Gareth David..：

我用过的最稳定的结果一直是使用lxml.html的soupparser.您需要安装python-lxml和python-beautifulsoup,然后您可以执行以下操作:

from lxml.html.soupparser import fromstring
tree = fromstring('here!')
matches = tree.xpath("./mal[@form=ed]")

推荐阅读

程序员
为什么不透明样式在SearchBar上不起作用？

如何解决《为什么不透明样式在SearchBar上不起作用？》经验，为你挑选了1个好方法。 ... [详细]
程序员
MySQL:SELECT UNIQUE VALUE

如何解决《MySQL:SELECTUNIQUEVALUE》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过一系列运算符进行迭代

如何解决《通过一系列运算符进行迭代》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Visual Studio 2015 Update 1中找不到模块'angular2/core'

如何解决《在VisualStudio2015Update1中找不到模块'angular2/core'》经验，为你挑选了0个好方法。 ... [详细]
程序员
什么在这个赋值中无效:`Map <String,Object> mObj = new HashMap <String,String []>();`？

如何解决《什么在这个赋值中无效:`Map<String,Object>mObj=newHashMap<String,String[]>();`？》经验，为你挑选了2个好方法。 ... [详细]
程序员
容器borderRadius被子视图覆盖,这是一个bug吗？

如何解决《容器borderRadius被子视图覆盖,这是一个bug吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从c#中的列表列表中获取不同的元素

如何解决《如何从c#中的列表列表中获取不同的元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
提交应用时,"符号文件太多"会发出警告

如何解决《提交应用时,"符号文件太多"会发出警告》经验，为你挑选了1个好方法。 ... [详细]
程序员
单元测试Java开关 - 案例逻辑 - 多个单独的函数或多个调用

如何解决《单元测试Java开关-案例逻辑-多个单独的函数或多个调用》经验，为你挑选了1个好方法。 ... [详细]
程序员
在shell脚本中,for循环中的'if-else'是如何执行的？为什么它只为变量打印一次？

如何解决《在shell脚本中,for循环中的'if-else'是如何执行的？为什么它只为变量打印一次？》经验，为你挑选了1个好方法。 ... [详细]
程序员
知道变量占用多少内存的正确方法是什么

如何解决《知道变量占用多少内存的正确方法是什么》经验，为你挑选了1个好方法。 ... [详细]
程序员
md-select不更新模型

如何解决《md-select不更新模型》经验，为你挑选了1个好方法。 ... [详细]
程序员
域对象,工厂和存储库之间的依赖关系

如何解决《域对象,工厂和存储库之间的依赖关系》经验，为你挑选了1个好方法。 ... [详细]
程序员
检查是否在芹菜任务

如何解决《检查是否在芹菜任务》经验，为你挑选了1个好方法。 ... [详细]
程序员
C++:基类中的String参数在派生类解构时解构

如何解决《C++:基类中的String参数在派生类解构时解构》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Maven中替换文件的正确方法是什么？

如何解决《在Maven中替换文件的正确方法是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在OCaml中创建大量线程？

如何解决《如何在OCaml中创建大量线程？》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以将谷歌博客网站嵌入我的网站

如何解决《我可以将谷歌博客网站嵌入我的网站》经验，为你挑选了1个好方法。 ... [详细]
程序员
检测未初始化对象的类型

如何解决《检测未初始化对象的类型》经验，为你挑选了1个好方法。 ... [详细]
程序员
当gulp为应用程序提供服务时,如何在webstorm中调试Javascript

如何解决《当gulp为应用程序提供服务时,如何在webstorm中调试Javascript》经验，为你挑选了0个好方法。 ... [详细]

勤奋的瞌睡猪_715

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章