2赞

使用Python请求模块下载并保存PDF文件

作者：N个小灰流_701 | 2023-09-09 03:37

如何解决《使用Python请求模块下载并保存PDF文件》经验，为你挑选了2个好方法。

我试图从网站下载PDF文件并将其保存到磁盘.我的尝试要么失败,要么编码错误,要么导致空白PDF.

In [1]: import requests

In [2]: url = 'http://www.hrecos.org//images/Data/forweb/HRTVBSH.Metadata.pdf'

In [3]: response = requests.get(url)

In [4]: with open('/tmp/metadata.pdf', 'wb') as f:
   ...:     f.write(response.text)
---------------------------------------------------------------------------
UnicodeEncodeError                        Traceback (most recent call last)
 in ()
      1 with open('/tmp/metadata.pdf', 'wb') as f:
----> 2     f.write(response.text)
      3 

UnicodeEncodeError: 'ascii' codec can't encode characters in position 11-14: ordinal not in range(128)

In [5]: import codecs

In [6]: with codecs.open('/tmp/metadata.pdf', 'wb', encoding='utf8') as f:
   ...:     f.write(response.text)
   ...:

我知道这是某种编解码器问题,但我似乎无法让它工作.

1> Kevin Guan..：

response.content在这种情况下你应该使用:

with open('/tmp/metadata.pdf', 'wb') as f:
    f.write(response.content)

从文件:

对于非文本请求,您还可以以字节为单位访问响应正文:
>>> r.content
b'[{"repository":{"open_issues":0,"url":"https://github.com/...

这意味着:response.text将输出作为字符串对象返回,在下载文本文件时使用它.如HTML文件等

并将response.content输出作为bytes对象返回,在下载二进制文件时使用它.如PDF文件,音频文件,图像等

您还可以使用response.raw代替.但是,当您要下载的文件很大时使用它.以下是您可以在文档中找到的基本示例:

import requests

url = 'http://www.hrecos.org//images/Data/forweb/HRTVBSH.Metadata.pdf'
r = requests.get(url, stream=True)

with open('/tmp/metadata.pdf', 'wb') as fd:
    for chunk in r.iter_content(chunk_size):
        fd.write(chunk)

chunk_size是您要使用的块大小.如果将其设置为2000,则请求将下载该文件的第一个2000字节,将它们写入文件,并一次又一次地执行此操作,除非它完成.

所以这可以节省你的RAM.但我更喜欢response.content在这种情况下使用,因为你的文件很小.如您所见,使用response.raw很复杂.

涉及:

如何使用requests.py在python中下载大文件？

如何使用请求下载图像

2> 小智..：

在Python 3中，我发现pathlib是执行此操作的最简单方法。请求的response.content与pathlib的_write_bytes_很好地结合在一起。

from pathlib import Path
import requests
filename = Path('metadata.pdf')
url = 'http://www.hrecos.org//images/Data/forweb/HRTVBSH.Metadata.pdf'
response = requests.get(url)
filename.write_bytes(response.content)

推荐阅读

程序员
HDFS上的root scratch dir:/ tmp/hive应该是可写的.当前权限是:rw-rw-rw-(在Windows上)

如何解决《HDFS上的rootscratchdir:/tmp/hive应该是可写的.当前权限是:rw-rw-rw-(在Windows上)》经验，为你挑选了5个好方法。 ... [详细]
程序员
在django-rest-framework中使用.to_representation()和.to_internal_value？

如何解决《在django-rest-framework中使用.to_representation()和.to_internal_value？》经验，为你挑选了1个好方法。 ... [详细]
程序员
复选框选中的属性在Chrome或Firefox开发者工具中不会更改

如何解决《复选框选中的属性在Chrome或Firefox开发者工具中不会更改》经验，为你挑选了1个好方法。 ... [详细]
程序员
在ArangoDB中,将使用过滤器从邻居查询是否在O(n)中完成？

如何解决《在ArangoDB中,将使用过滤器从邻居查询是否在O(n)中完成？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在不重复代码的情况下在所有控制器中显示警报？

如何解决《如何在不重复代码的情况下在所有控制器中显示警报？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何编辑插件以使用主题的模板文件

如何解决《如何编辑插件以使用主题的模板文件》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用Globalize迁移错误

如何解决《使用Globalize迁移错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
django1.8-如何在上传Excel并插入数据库时手动附加信息

如何解决《django1.8-如何在上传Excel并插入数据库时手动附加信息》经验，为你挑选了1个好方法。 ... [详细]
程序员
与ngMouseover辩论

如何解决《与ngMouseover辩论》经验，为你挑选了1个好方法。 ... [详细]
程序员
R包 - 如果未导出该函数,则无法测试@example函数

如何解决《R包-如果未导出该函数,则无法测试@example函数》经验，为你挑选了0个好方法。 ... [详细]
程序员
Spring Data Rest和Spring Data Envers:如何为扩展Revision Repository的Repository公开REST API

如何解决《SpringDataRest和SpringDataEnvers:如何为扩展RevisionRepository的Repository公开RESTAPI》经验，为你挑选了1个好方法。 ... [详细]
程序员
放大溢出：滚动

如何解决《放大溢出：滚动》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在java中将布尔对象类型设置为表列

如何解决《如何在java中将布尔对象类型设置为表列》经验，为你挑选了1个好方法。 ... [详细]
程序员
STM32如何获得最后的重置状态

如何解决《STM32如何获得最后的重置状态》经验，为你挑选了1个好方法。 ... [详细]
程序员
在离线或飞行模式下处理远程推送通知

如何解决《在离线或飞行模式下处理远程推送通知》经验，为你挑选了1个好方法。 ... [详细]
程序员
WebStorm:仅在保存时可以转换TypeScript文件

如何解决《WebStorm:仅在保存时可以转换TypeScript文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用Android中的MVP模式从我的Interactor启动服务？

如何解决《如何使用Android中的MVP模式从我的Interactor启动服务？》经验，为你挑选了0个好方法。 ... [详细]
程序员
UIKeyboardWillShowNotification为快速键盘返回错误的帧

如何解决《UIKeyboardWillShowNotification为快速键盘返回错误的帧》经验，为你挑选了0个好方法。 ... [详细]
程序员
在UWP中使用RenderTargetBitmap时出错

如何解决《在UWP中使用RenderTargetBitmap时出错》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用SQLite作为代理的Celery + Flask,在调用任务时出错

如何解决《使用SQLite作为代理的Celery+Flask,在调用任务时出错》经验，为你挑选了0个好方法。 ... [详细]

N个小灰流_701

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章