1赞

Python实现抓取页面上链接的简单爬虫分享

作者：小白也坚强_177 | 2021-10-27 07:15

这篇文章主要介绍了Python实现抓取页面上链接的简单爬虫分享,本文使用了一个开源模块requests实现需求,需要的朋友可以参考下

除了C/C++以外，我也接触过不少流行的语言，PHP、java、javascript、python，其中python可以说是操作起来最方便，缺点最少的语言了。

前几天想写爬虫，后来跟朋友商量了一下，决定过几天再一起写。爬虫里重要的一部分是抓取页面中的链接，我在这里简单的实现一下。

首先我们需要用到一个开源的模块，requests。这不是python自带的模块，需要从网上下载、解压与安装：

复制代码代码如下:

$ curl -OL https://github.com/kennethreitz/requests/zipball/master

$ python setup.py install

windows用户直接点击下载。解压后再本地使用命令python setup.py install安装即可。 https://github.com/kennethreitz/requests/zipball/master

这个模块的文档我也正在慢慢翻译，翻译完了就给大家传上来（英文版先发在附件里）。就像它的说明里面说的那样，built for human beings,为人类而设计。使用它很方便，自己看文档。最简单的，requests.get()就是发送一个get请求。

代码如下：

复制代码代码如下:

# coding:utf-8
import re
import requests

# 获取网页内容
r = requests.get('http://www.163.com')
data = r.text

# 利用正则查找所有连接
link_list =re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" ,data)
for url in link_list:
print url

首先import进re和requests模块，re模块是使用正则表达式的模块。

data = requests.get('http://www.163.com')，向网易首页提交get请求，得到一个requests对象r，r.text就是获得的网页源代码，保存在字符串data中。

再利用正则查找data中所有的链接，我的正则写的比较粗糙，直接把href=""或href=''之间的信息获取到，这就是我们要的链接信息。

re.findall返回的是一个列表，用for循环遍历列表并输出：

这是我获取到的所有连接的一部分。

上面是获取网站里所有链接的一个简单的实现，没有处理任何异常，没有考虑到超链接的类型，代码仅供参考。requests模块文档见附件。

推荐阅读

程序员
尝试进行迁移时,获取"以下内容类型已过时且需要删除".这意味着什么,我该如何解决？

如何解决《尝试进行迁移时,获取"以下内容类型已过时且需要删除".这意味着什么,我该如何解决？》经验，为你挑选了1个好方法。 ... [详细]
程序员
C++中构造函数中dot <function name>的含义

如何解决《C++中构造函数中dot<functionname>的含义》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用dplyr删除NaN

如何解决《使用dplyr删除NaN》经验，为你挑选了0个好方法。 ... [详细]
程序员
在<input type ="number">中允许2个小数位

如何解决《在<inputtype="number">中允许2个小数位》经验，为你挑选了5个好方法。 ... [详细]
程序员
来自EC2的AWS S3 Bucket Access

如何解决《来自EC2的AWSS3BucketAccess》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果玩家最多可以获得4个硬币,那么赢得比赛的策略

如何解决《如果玩家最多可以获得4个硬币,那么赢得比赛的策略》经验，为你挑选了1个好方法。 ... [详细]
程序员
纯虚函数实现

如何解决《纯虚函数实现》经验，为你挑选了1个好方法。 ... [详细]
程序员
MAC - 我无法在Mac上打开Android设备监视器

如何解决《MAC-我无法在Mac上打开Android设备监视器》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何为GCC设置Visual Studio代码编译器/调试器？

如何解决《如何为GCC设置VisualStudio代码编译器/调试器？》经验，为你挑选了3个好方法。 ... [详细]
程序员
Python Flask,TypeError:'dict'对象不可调用

如何解决《PythonFlask,TypeError:'dict'对象不可调用》经验，为你挑选了2个好方法。 ... [详细]
程序员
无法从Device/Genymotion连接到chrome调试器

如何解决《无法从Device/Genymotion连接到chrome调试器》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么clojure允许使用lessthan(<)或大于(>)运算符/函数的单个参数

如何解决《为什么clojure允许使用lessthan(<)或大于(>)运算符/函数的单个参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
Make Font Awesome图标是表单的提交

如何解决《MakeFontAwesome图标是表单的提交》经验，为你挑选了1个好方法。 ... [详细]
程序员
修改$ _的Perl函数

如何解决《修改$_的Perl函数》经验，为你挑选了2个好方法。 ... [详细]
程序员
引用内存位置的内容.(x86寻址模式)

如何解决《引用内存位置的内容.(x86寻址模式)》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Excel-DNA中标记功能IsMacroType的优点/缺点是什么？

如何解决《在Excel-DNA中标记功能IsMacroType的优点/缺点是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
错误:无法解析环境生产:是一个目录 - 与vagrant和puphpet

如何解决《错误:无法解析环境生产:是一个目录-与vagrant和puphpet》经验，为你挑选了1个好方法。 ... [详细]
程序员
定义与constexpr静态成员的声明不同

如何解决《定义与constexpr静态成员的声明不同》经验，为你挑选了0个好方法。 ... [详细]
程序员
最后得到pymssql安装,但它不会导入

如何解决《最后得到pymssql安装,但它不会导入》经验，为你挑选了0个好方法。 ... [详细]
程序员
在小提琴图中为每个小提琴设置颜色

如何解决《在小提琴图中为每个小提琴设置颜色》经验，为你挑选了1个好方法。 ... [详细]

小白也坚强_177

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章