我希望这个问题不是RTFM问题.我正在尝试编写一个Python脚本,从标准HTML网页(标签)中提取链接.我在网上搜索匹配的regexen,发现了许多不同的模式.是否有任何商定的标准正则表达式匹配链接?
亚当
更新: 我实际上正在寻找两个不同的答案:
什么是解析HTML链接的库解决方案.美丽的汤似乎是一个很好的解决方案(谢谢,Igal Serban
和cletus
!)
可以使用正则表达式定义链接吗?
cletus.. 17
使用HTML的正则表达起来很混乱.只需使用像Beautiful Soup这样的DOM解析器.
使用HTML的正则表达起来很混乱.只需使用像Beautiful Soup这样的DOM解析器.
正如其他人所说,如果不需要实时性能,BeautifulSoup是一个很好的解决方案:
import urllib2 from BeautifulSoup import BeautifulSoup html = urllib2.urlopen("http://www.google.com").read() soup = BeautifulSoup(html) all_links = soup.findAll("a")
至于第二个问题,是的,HTML链接应该是明确定义的,但实际遇到的HTML不太可能是标准的.BeautifulSoup的美妙之处在于它使用类似浏览器的启发式方法来尝试解析您可能实际遇到的非标准,格式错误的HTML.
如果您确定要使用标准XHTML,则可以使用(更多)更快的XML解析器,如expat.
正则表达式,由于上述原因(解析器必须维护状态,正则表达式不能这样做)永远不会是一般解决方案.
不,没有.
你可以考虑使用美丽的汤.您可以将其称为解析html文件的标准.