Python爬虫文件下载图文教程

作者：小白也坚强_177 | 2021-12-11 23:07

在本篇内容里小编给大家分享的是关于Python爬虫文件下载的相关知识点内容，有需要的朋友们学习下。

而今天我们要说的内容是：如果在网页中存在文件资源，如：图片，电影，文档等。怎样通过Python爬虫把这些资源下载下来。

1、怎样在网上找资源：

就是百度图片为例，当你如下图在百度图片里搜索一个主题时，会为你跳出一大堆相关的图片。

还有如果你想学英语，找到一个网站有很多mp3的听力资源，这些可能都是你想获取的内容。

现在是一个互联网的时代，只要你去找，基本上能找到你想要的任何资源。

2、怎样识别网页中的资源：

以上面搜索到的百度图片为例。找到了这么多的内容，当然你可以通过手动一张张的去保存，但这样做既费力又费事。你当然更希望通过程序自动去下载所找到的资源。要想代码识别这些资源，就要告诉代码这些资源有哪些特征，怎样在网页中找到它们。

打开浏览器的调试功能（不同浏览器可能有差别，不知道的百度一下吧）。找出网页中你想要下载资源的路径，如下图所示。如果有许多类似资源需要下载，则要找到识别这些资源地址的规律，然后告诉代码。

3、资源下载方法一：

代码很简单，直接上代码：

from urllib.request import urlretrieve

urlretrieve("图片URL", "./image.jpg")

直接通过urlretrieve函数就把URL对应的图片给下载到当前文件夹（./）中了，并把图片命名为image.jpg。

4、资源下载方法二：

还是直接看代码：

import requests

resource = requests.get("图片URL")

with open("./image.jpg", mode="wb") as fh:

  fh.write(resource.content)

此下载方法要安装python的requests库。从功能上来说与下载方法一是一样的。python库的安装方法用pip就好。很简单，这里都不啰嗦了。

5、资源下载方法三：

看代码：

import requests

resource = requests.get("图片URL", stream=True)

with open("./image.jpg", mode="wb") as fh:

  for chunk in resource.iter_content(chunk_size=100):

    fh.write(chunk)

此方法与下载方法二的不同之处在于在get方法调用时使用了参数【stream=True】。而在写入的文件的时候是分块写入的。

什么意思呢：

前两种方法是把一个文件全部下载到内存后，再一起写入到硬盘文件中。

方法三是下载一定的量（这里指的是100字节）后，就写入到硬盘文件中，直到全部写完。

第三种方法的好处是，如果在下载大容量文件时，不会造成内存的过度使用。

6、资源下载说明一：

上述的代码都是通过下载图片资源为例子的，但所有其它资源，如文档，电影等的下载方式是一样的。关键是要正确的识别出网页中资源所对应的URL地址才能够正确的下载（因为有些资源是用的相对路径或加密后的路径）。

7、资源下载说明二：

上面例子中的代码都是下载单一资源的。如果要在同一网页中下载多个资源的思路如下：

1. 找出要下载资源的URL，并形成一个资源集合；

2. 把下载函数中的资源URL与保存路径参数化；

3. 遍历资源集合，依靠循环调用下载函数来达到多个资源下载的目的。

总结：以上就是本次介绍关于Python爬虫下载文件的所有知识点内容，感谢大家的阅读。

推荐阅读

程序员
如何对OData客户端进行单元测试？

如何解决《如何对OData客户端进行单元测试？》经验，为你挑选了1个好方法。 ... [详细]
程序员
我的剧本有什么问题,请告诉我

如何解决《我的剧本有什么问题,请告诉我》经验，为你挑选了1个好方法。 ... [详细]
程序员
在IDE中打开模式对话框时，访问Visual Studio DTE成员将挂起。

如何解决《在IDE中打开模式对话框时，访问VisualStudioDTE成员将挂起。》经验，为你挑选了0个好方法。 ... [详细]
程序员
jvnet maven-jaxb2-plugin版本0.13.0的Eclipse错误消息

如何解决《jvnetmaven-jaxb2-plugin版本0.13.0的Eclipse错误消息》经验，为你挑选了1个好方法。 ... [详细]
程序员
从过滤器访问"会话"

如何解决《从过滤器访问"会话"》经验，为你挑选了1个好方法。 ... [详细]
程序员
快递路由器 - :id？

如何解决《快递路由器-:id？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Visual Studio表现得很奇怪.我该如何解决？

如何解决《VisualStudio表现得很奇怪.我该如何解决？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何获取导致“ st_distance_sphere参数错误”错误的值？

如何解决《如何获取导致“st_distance_sphere参数错误”错误的值？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Edge不会在flexbox中拉伸iframe

如何解决《Edge不会在flexbox中拉伸iframe》经验，为你挑选了1个好方法。 ... [详细]
程序员
Woocommerce:如何从ID中获取产品slug？

如何解决《Woocommerce:如何从ID中获取产品slug？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Web RTC重新协商错误

如何解决《WebRTC重新协商错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
VBoxManage命令修复了Windows上的Xamarin android播放器错误

如何解决《VBoxManage命令修复了Windows上的Xamarinandroid播放器错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
Ent Entity Framework可以在SQL中生成UPDATE ... WHERE语句吗？

如何解决《EntEntityFramework可以在SQL中生成UPDATEWHERE语句吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法在C++ Win32中为SysLink设置URL或ID

如何解决《无法在C++Win32中为SysLink设置URL或ID》经验，为你挑选了1个好方法。 ... [详细]
程序员
GPU拾取-精灵周围的不可见像素

如何解决《GPU拾取-精灵周围的不可见像素》经验，为你挑选了1个好方法。 ... [详细]
程序员
前缀密钥MySQL不正确

如何解决《前缀密钥MySQL不正确》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么我可以返回一个返回类型为AnyObject的bool？与UIKit而不是达尔文

如何解决《为什么我可以返回一个返回类型为AnyObject的bool？与UIKit而不是达尔文》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何以编程方式重新启动Windows 10 IoT应用程序

如何解决《如何以编程方式重新启动Windows10IoT应用程序》经验，为你挑选了1个好方法。 ... [详细]
程序员
Tcl错误:错误#args:应该是"set varName？newValue？"

如何解决《Tcl错误:错误#args:应该是"setvarName？newValue？"》经验，为你挑选了1个好方法。 ... [详细]
程序员
AWS EC2实例路由表和VPC路由表

如何解决《AWSEC2实例路由表和VPC路由表》经验，为你挑选了1个好方法。 ... [详细]

小白也坚强_177

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章