9赞

使用python在网页上提取URL列表的简单方法是什么？

作者：保佑欣疼你的芯疼 | 2023-06-25 08:25

如何解决《使用python在网页上提取URL列表的简单方法是什么？》经验，为你挑选了1个好方法。

我想创建一个简单的Web爬虫以获得乐趣.我需要网络抓取工具来获取一个页面上所有链接的列表.python库是否有任何内置函数可以使这更容易？感谢任何知识赞赏.

1> Chris Morgan..：

这对BeautifulSoup来说非常简单.

from BeautifulSoup import BeautifulSoup

[element['href'] for element in BeautifulSoup(document_contents).findAll('a', href=True)]

# [u'http://example.com/', u'/example', ...]

最后一件事:您可以使用urlparse.urljoin所有URL绝对.如果您需要链接文本,可以使用类似的内容element.contents[0].

以下是您可以将它们联系在一起的方式:

import urllib2
import urlparse
from BeautifulSoup import BeautifulSoup

def get_all_link_targets(url):
    return [urlparse.urljoin(url, tag['href']) for tag in
            BeautifulSoup(urllib2.urlopen(url)).findAll('a', href=True)]

推荐阅读

程序员
如何在Medium Editor中使用链接？

如何解决《如何在MediumEditor中使用链接？》经验，为你挑选了1个好方法。 ... [详细]
程序员
实体框架正在忽略NotMapped属性

如何解决《实体框架正在忽略NotMapped属性》经验，为你挑选了1个好方法。 ... [详细]
程序员
我应该使用CancellationTokenSource还是CancellationToken来取消.NET中的任务

如何解决《我应该使用CancellationTokenSource还是CancellationToken来取消.NET中的任务》经验，为你挑选了0个好方法。 ... [详细]
程序员
GL_COLOR_BUFFER_BIT重新生成哪个内存？

如何解决《GL_COLOR_BUFFER_BIT重新生成哪个内存？》经验，为你挑选了1个好方法。 ... [详细]
程序员
对于什么输入和参数将perl split给出结果(""),如果有的话？

如何解决《对于什么输入和参数将perlsplit给出结果(""),如果有的话？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在UWP中的"Enter"上关闭ContentDialog

如何解决《如何在UWP中的"Enter"上关闭ContentDialog》经验，为你挑选了1个好方法。 ... [详细]
程序员
第一个自制公式,在收集依赖关系和资源后不了解安装过程

如何解决《第一个自制公式,在收集依赖关系和资源后不了解安装过程》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何将过滤器应用于*ngFor？

如何解决《如何将过滤器应用于*ngFor？》经验，为你挑选了7个好方法。 ... [详细]
程序员
Swift是否有任何原生并发和多线程支持？

如何解决《Swift是否有任何原生并发和多线程支持？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Aurelia绑定:反复调用property-getter

如何解决《Aurelia绑定:反复调用property-getter》经验，为你挑选了1个好方法。 ... [详细]
程序员
烧瓶:一次装饰每条路线？

如何解决《烧瓶:一次装饰每条路线？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用预处理器宏插入注释字符

如何解决《使用预处理器宏插入注释字符》经验，为你挑选了0个好方法。 ... [详细]
程序员
NoMethodError:未定义的方法`validate_presence_of'(Rspec和Shoulda-Matchers)

如何解决《NoMethodError:未定义的方法`validate_presence_of'(Rspec和Shoulda-Matchers)》经验，为你挑选了1个好方法。 ... [详细]
程序员
获取Bokeh中框选择工具中包含的选定数据

如何解决《获取Bokeh中框选择工具中包含的选定数据》经验，为你挑选了1个好方法。 ... [详细]
程序员
gcc ld：确定静态库链接顺序的方法

如何解决《gccld：确定静态库链接顺序的方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
错误:在"}之后的第24行,第1列(字节528)中的#,输入,过滤器,输出之一

如何解决《错误:在"}之后的第24行,第1列(字节528)中的#,输入,过滤器,输出之一》经验，为你挑选了1个好方法。 ... [详细]
程序员
Delphi,如何避免application.CreateForm？

如何解决《Delphi,如何避免application.CreateForm？》经验，为你挑选了1个好方法。 ... [详细]
程序员
具有数据绑定的聚合物铁-ajax元素参数将参数分成单个字符

如何解决《具有数据绑定的聚合物铁-ajax元素参数将参数分成单个字符》经验，为你挑选了2个好方法。 ... [详细]
程序员
为什么会出现致命错误:安装PyYAML时找不到'yaml.h'文件？

如何解决《为什么会出现致命错误:安装PyYAML时找不到'yaml.h'文件？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Xcode UI测试脚本中执行点击和拖动操作？

如何解决《如何在XcodeUI测试脚本中执行点击和拖动操作？》经验，为你挑选了1个好方法。 ... [详细]

保佑欣疼你的芯疼

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章