5赞

使用Python获取html文件中所有<a>标签中的href属性值

作者：手机用户2402851335 | 2023-08-29 08:21

如何解决《使用Python获取html文件中所有<a>标签中的href属性值》经验，为你挑选了2个好方法。

我正在python中构建一个应用程序,我需要在一个网页中获取所有链接的URL.我已经有一个函数使用urllib从web下载html文件,并将其转换为带有readlines()的字符串列表.

目前我有这个代码使用正则表达式(我不是很擅长)来搜索每一行中的链接:

for line in lines:
    result = re.match ('/href="(.*)"/iU', line)
    print result

这不起作用,因为它只为文件中的每一行打印"无",但我确信至少在我打开的文件上有3个链接.

有人可以给我一个暗示吗？

提前致谢

1> Ignacio Vazq..：

美丽的汤几乎可以做到这一点:

from BeautifulSoup import BeautifulSoup as soup

html = soup('qweasd')
print [tag.attrMap['href'] for tag in html.findAll('a', {'href': True})]

2> 小智..：

BeautifulSoup的另一个替代品是lxml(http://lxml.de/);

import lxml.html
links = lxml.html.parse("http://stackoverflow.com/").xpath("//a/@href")
for link in links:
    print link

推荐阅读

程序员
如何在SumoSelect下拉列表中获取选定的值？

如何解决《如何在SumoSelect下拉列表中获取选定的值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用未对齐缓冲区进行矢量化:使用VMASKMOVPS:根据未对齐计数生成掩码？或者根本不使用那个insn

如何解决《使用未对齐缓冲区进行矢量化:使用VMASKMOVPS:根据未对齐计数生成掩码？或者根本不使用那个insn》经验，为你挑选了1个好方法。 ... [详细]
程序员
AX 2012R2:查找查询花费的时间太长,查找永远不会打开

如何解决《AX2012R2:查找查询花费的时间太长,查找永远不会打开》经验，为你挑选了1个好方法。 ... [详细]
程序员
(Android)我如何获得SmartPhone ScreenWidth和高度？

如何解决《(Android)我如何获得SmartPhoneScreenWidth和高度？》经验，为你挑选了0个好方法。 ... [详细]
程序员
alias_method:堆栈级别太深

如何解决《alias_method:堆栈级别太深》经验，为你挑选了1个好方法。 ... [详细]
程序员
Chomp地图的所有键(使用更少的代码)

如何解决《Chomp地图的所有键(使用更少的代码)》经验，为你挑选了1个好方法。 ... [详细]
程序员
两个类有共同的方法和属性

如何解决《两个类有共同的方法和属性》经验，为你挑选了1个好方法。 ... [详细]
程序员
SQL查询缓存

如何解决《SQL查询缓存》经验，为你挑选了0个好方法。 ... [详细]
程序员
H.264编码的NAL /切片分割

如何解决《H.264编码的NAL/切片分割》经验，为你挑选了0个好方法。 ... [详细]
程序员
将recyclerview焦点转移到列表中的最后一个元素

如何解决《将recyclerview焦点转移到列表中的最后一个元素》经验，为你挑选了3个好方法。 ... [详细]
程序员
Swagger PHP:如何声明属性以使用模式定义？

如何解决《SwaggerPHP:如何声明属性以使用模式定义？》经验，为你挑选了1个好方法。 ... [详细]
程序员
从.json url中提取数据导致Jquery出错

如何解决《从.jsonurl中提取数据导致Jquery出错》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用jQuery选择data-title中的元素？

如何解决《如何使用jQuery选择data-title中的元素？》经验，为你挑选了0个好方法。 ... [详细]
程序员
SQL Server表列中的默认值为GUID

如何解决《SQLServer表列中的默认值为GUID》经验，为你挑选了1个好方法。 ... [详细]
程序员
覆盖iPhone中所有设备的屏幕所需的图像大小

如何解决《覆盖iPhone中所有设备的屏幕所需的图像大小》经验，为你挑选了0个好方法。 ... [详细]
程序员
将promise polyfill添加到ES6

如何解决《将promisepolyfill添加到ES6》经验，为你挑选了1个好方法。 ... [详细]
程序员
Kryo注册了LabeledPoint类

如何解决《Kryo注册了LabeledPoint类》经验，为你挑选了1个好方法。 ... [详细]
程序员
在swift中调用超级指定初始化程序之前初始化属性值的目的是什么？

如何解决《在swift中调用超级指定初始化程序之前初始化属性值的目的是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
我应该使用哪种助推器来存储人类年龄

如何解决《我应该使用哪种助推器来存储人类年龄》经验，为你挑选了1个好方法。 ... [详细]
程序员
Angular.JS onclick函数仅在第一次单击时调用

如何解决《Angular.JSonclick函数仅在第一次单击时调用》经验，为你挑选了0个好方法。 ... [详细]

手机用户2402851335

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章