当前位置:  开发笔记 > 编程语言 > 正文

正则表达式html文本中的链接

如何解决《正则表达式html文本中的链接》经验,为你挑选了3个好方法。

我希望这个问题不是RTFM问题.我正在尝试编写一个Python脚本,从标准HTML网页(标签)中提取链接.我在网上搜索匹配的regexen,发现了许多不同的模式.是否有任何商定的标准正则表达式匹配链接?

亚当

更新: 我实际上正在寻找两个不同的答案:

    什么是解析HTML链接的库解决方案.美丽的汤似乎是一个很好的解决方案(谢谢,Igal Serbancletus!)

    可以使用正则表达式定义链接​​吗?

cletus.. 17

使用HTML的正则表达起来很混乱.只需使用像Beautiful Soup这样的DOM解析器.



1> cletus..:

使用HTML的正则表达起来很混乱.只需使用像Beautiful Soup这样的DOM解析器.



2> Triptych..:

正如其他人所说,如果不需要实时性能,BeautifulSoup是一个很好的解决方案:

import urllib2
from BeautifulSoup import BeautifulSoup

html = urllib2.urlopen("http://www.google.com").read()
soup = BeautifulSoup(html)
all_links = soup.findAll("a")

至于第二个问题,是的,HTML链接应该是明确定义的,但实际遇到的HTML不太可能是标准的.BeautifulSoup的美妙之处在于它使用类似浏览器的启发式方法来尝试解析您可能实际遇到的非标准,格式错误的HTML.

如果您确定要使用标准XHTML,则可以使用(更多)更快的XML解析器,如expat.

正则表达式,由于上述原因(解析器必须维护状态,正则表达式不能这样做)永远不会是一般解决方案.



3> Igal Serban..:

不,没有.

你可以考虑使用美丽的汤.您可以将其称为解析html文件的标准.

推荐阅读
N个小灰流_701
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有