11赞

使用Python下载未在URL中明确引用的文档

作者：k78283381 | 2023-06-26 18:27

如何解决《使用Python下载未在URL中明确引用的文档》经验，为你挑选了1个好方法。

我在Python 2.6中使用Bing API编写了一个Web爬虫,它搜索某些文档,然后下载它们以便稍后进行分类.我一直在使用字符串方法并urllib.urlretrieve()下载其URL以.pdf,.ps等结尾的结果,但是当文档被"隐藏"在URL之后时,我遇到了麻烦:

http://www.oecd.org/officialdocuments/displaydocument/?cote=STD/CSTAT/WPNA(2008)25&docLanguage=En

那么,有两个问题.有没有一种方法可以判断一个URL是否有一个pdf/doc等文件,如果它没有这么明确地链接到它(例如www.domain.com/file.pdf)？有没有办法让Python抓住那个文件？

编辑:感谢您的回复,其中一些建议下载文件,看看它是否是正确的类型.唯一的问题是......我不知道该怎么做(见上面的问题#2).urlretrieve()只给出一个html文件,其href包含相同的url.

1> Douglas Leed..：

没有办法从URL中告诉它会给你什么.即使它结束.pdf它仍然可以给你HTML或任何它喜欢的东西.

您可以执行HEAD请求并查看内容类型,如果服务器没有对您说谎,则会告诉您它是否为PDF.

或者,您可以下载它,然后确定您获得的是PDF.

推荐阅读

程序员
MSMQ.在邮件存储在驱动器上时保持邮件正文加密

如何解决《MSMQ.在邮件存储在驱动器上时保持邮件正文加密》经验，为你挑选了0个好方法。 ... [详细]
程序员
Spring Boot SSL TCPClient~StompBrokerRelayMessageHandler~ActiveMQ~Undertow

如何解决《SpringBootSSLTCPClient~StompBrokerRelayMessageHandler~ActiveMQ~Undertow》经验，为你挑选了1个好方法。 ... [详细]
程序员
我找到了一个javascript块,但不明白它的作用

如何解决《我找到了一个javascript块,但不明白它的作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
将std :: tr1 :: shared_ptr与std :: function/std :: bind混合会导致编译器错误与更新的gcc

如何解决《将std::tr1::shared_ptr与std::function/std::bind混合会导致编译器错误与更新的gcc》经验，为你挑选了1个好方法。 ... [详细]
程序员
Lodash过滤器嵌套对象

如何解决《Lodash过滤器嵌套对象》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么我们需要容器？

如何解决《为什么我们需要容器？》经验，为你挑选了1个好方法。 ... [详细]
程序员
从pandas在seaborn clustermap中设置col_colors

如何解决《从pandas在seabornclustermap中设置col_colors》经验，为你挑选了1个好方法。 ... [详细]
程序员
Woocommerce - added_to_cart触发器

如何解决《Woocommerce-added_to_cart触发器》经验，为你挑选了1个好方法。 ... [详细]
程序员
Nodejs:wget,解压缩并转换为js而无需写入文件

如何解决《Nodejs:wget,解压缩并转换为js而无需写入文件》经验，为你挑选了0个好方法。 ... [详细]
程序员
动态查找矩形的边缘

如何解决《动态查找矩形的边缘》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从UISegmentController中删除边框？

如何解决《如何从UISegmentController中删除边框？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android拍摄截图

如何解决《Android拍摄截图》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用JS的数组问题

如何解决《使用JS的数组问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
为不同的客户选择不同的最大ID

如何解决《为不同的客户选择不同的最大ID》经验，为你挑选了1个好方法。 ... [详细]
程序员
Windows中NPM和Node-gyp的问题

如何解决《Windows中NPM和Node-gyp的问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
不同分类器的TPR和FPR曲线 - kNN,NaiveBayes,R中的决策树

如何解决《不同分类器的TPR和FPR曲线-kNN,NaiveBayes,R中的决策树》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么errorString是一个结构,而不是一个字符串

如何解决《为什么errorString是一个结构,而不是一个字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在没有br的情况下在html中进行换行

如何解决《如何在没有br的情况下在html中进行换行》经验，为你挑选了1个好方法。 ... [详细]
程序员
在C#中从Firebase中驱动JSON对象

如何解决《在C#中从Firebase中驱动JSON对象》经验，为你挑选了2个好方法。 ... [详细]
程序员
无法执行 - Git P4克隆坏了

如何解决《无法执行-GitP4克隆坏了》经验，为你挑选了1个好方法。 ... [详细]

k78283381

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章