8赞

使用R接受cookie以下载PDF文件

作者：k78283381 | 2023-09-08 12:48

如何解决《使用R接受cookie以下载PDF文件》经验，为你挑选了1个好方法。

我在尝试下载PDF时遇到了问题.

例如,如果我在考古数据服务上有PDF文档的DOI,它将解析到此着陆页, 其中包含嵌入链接到此pdf,但它真正重定向到此其他链接.

library(httr)将处理解析DOI,我们可以使用登陆页面提取PDF格式的URL,library(XML)但我一直坚持获取PDF本身.

如果我这样做:

download.file("http://archaeologydataservice.ac.uk/archiveDS/archiveDownload?t=arch-1352-1/dissemination/pdf/Dyfed/GL44004.pdf", destfile = "tmp.pdf")

然后我收到一个与http://archaeologydataservice.ac.uk/myads/相同的HTML文件

尝试使用R如何从需要cookie的SSL页面下载压缩文件的答案引导我:

library(httr)

terms <- "http://archaeologydataservice.ac.uk/myads/copyrights"
download <- "http://archaeologydataservice.ac.uk/archiveDS/archiveDownload"
values <- list(agree = "yes", t = "arch-1352-1/dissemination/pdf/Dyfed/GL44004.pdf")

# Accept the terms on the form,
# generating the appropriate cookies

POST(terms, body = values)
GET(download, query = values)

# Actually download the file (this will take a while)

resp <- GET(download, query = values)

# write the content of the download to a binary file

writeBin(content(resp, "raw"), "c:/temp/thefile.zip")

但是在POST和GET函数之后,我只是得到了与之相同的cookie页面的HTML download.file:

> GET(download, query = values)
Response [http://archaeologydataservice.ac.uk/myads/copyrights?from=2f6172636869766544532f61726368697665446f776e6c6f61643f61677265653d79657326743d617263682d313335322d3125324664697373656d696e6174696f6e2532467064662532464479666564253246474c34343030342e706466]
  Date: 2016-01-06 00:35
  Status: 200
  Content-Type: text/html;charset=UTF-8
  Size: 21 kB


        
            

看看http://archaeologydataservice.ac.uk/about/Cookies看来这个网站的cookie情况很复杂.似乎这种cookie复杂性对于英国数据提供商来说并不罕见:使用RCurl或httr自动登录到R中的英国数据服务网站

如何使用R来浏览本网站上的cookie？


1> hrbrmstr..：
你听到了对rOpenSci的请求!

这些页面之间存在大量的javascript,这使得尝试通过httr+ 解密有点烦人rvest.试试RSelenium.这适用于OS X 10.11.2,R 3.2.3和Firefox加载.

library(RSelenium)

# check if a sever is present, if not, get a server
checkForServer()

# get the server going
startServer()

dir.create("~/justcreateddir")
setwd("~/justcreateddir")

# we need PDFs to download instead of display in-browser
prefs <- makeFirefoxProfile(list(
  `browser.download.folderList` = as.integer(2),
  `browser.download.dir` = getwd(),
  `pdfjs.disabled` = TRUE,
  `plugin.scan.plid.all` = FALSE,
  `plugin.scan.Acrobat` = "99.0",
  `browser.helperApps.neverAsk.saveToDisk` = 'application/pdf'
))
# get a browser going
dr <- remoteDriver$new(extraCapabilities=prefs)
dr$open()

# go to the page with the PDF
dr$navigate("http://archaeologydataservice.ac.uk/archives/view/greylit/details.cfm?id=17755")

# find the PDF link and "hit ENTER"
pdf_elem <- dr$findElement(using="css selector", "a.dlb3")
pdf_elem$sendKeysToElement(list("\uE007"))

# find the ACCEPT button and "hit ENTER"
# that will save the PDF to the default downloads directory
accept_elem <- dr$findElement(using="css selector", "a[id$='agreeButton']")
accept_elem$sendKeysToElement(list("\uE007"))


现在等待下载完成.R控制台在下载时不会很忙,因此在下载完成之前很容易意外关闭会话.

# close the session
dr$close()

        
好的,找到了如何让它在我的电脑上工作.我必须首先使用`java -jar selenium-server-standalone-2.48.0.jar`手动启动selenium独立服务器.然后我可以连接.

推荐阅读

程序员
弹簧数据mongodb中的2d球面索引

如何解决《弹簧数据mongodb中的2d球面索引》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何修复java中的堆栈溢出错误？

如何解决《如何修复java中的堆栈溢出错误？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在R中指定三维图表的摄像机视角？

如何解决《如何在R中指定三维图表的摄像机视角？》经验，为你挑选了1个好方法。 ... [详细]
程序员
"无法在未定义的值上调用方法'状态'"？

如何解决《"无法在未定义的值上调用方法'状态'"？》经验，为你挑选了1个好方法。 ... [详细]
程序员
根据转储成员函数的operator <<函数的通用实现

如何解决《根据转储成员函数的operator<<函数的通用实现》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Elastic Beanstalk上添加PATH

如何解决《如何在ElasticBeanstalk上添加PATH》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何通过环境变量在名称中设置带下划线的Spring Boot属性？

如何解决《如何通过环境变量在名称中设置带下划线的SpringBoot属性？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何证明返回IEnumerable的方法已被调用两次？

如何解决《如何证明返回IEnumerable的方法已被调用两次？》经验，为你挑选了2个好方法。 ... [详细]
程序员
mongo C驱动程序1.2.0中的错误处理

如何解决《mongoC驱动程序1.2.0中的错误处理》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Laravel5中调用未定义的方法Illuminate\Http\Response :: json()

如何解决《在Laravel5中调用未定义的方法Illuminate\Http\Response::json()》经验，为你挑选了2个好方法。 ... [详细]
程序员
诊断进程陷入D状态(不间断睡眠/阻塞IO)

如何解决《诊断进程陷入D状态(不间断睡眠/阻塞IO)》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用int13h从软盘加载段

如何解决《使用int13h从软盘加载段》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用if或while递归时的C差异

如何解决《使用if或while递归时的C差异》经验，为你挑选了1个好方法。 ... [详细]
程序员
Grunt,在构建时将html文件复制到脚本文件夹

如何解决《Grunt,在构建时将html文件复制到脚本文件夹》经验，为你挑选了0个好方法。 ... [详细]
程序员
Lotus Notes/LotusScript - 如何用德语而不是英语设置日期？

如何解决《LotusNotes/LotusScript-如何用德语而不是英语设置日期？》经验，为你挑选了0个好方法。 ... [详细]
程序员
找不到openssl/ssl.h但是用自制软件安装

如何解决《找不到openssl/ssl.h但是用自制软件安装》经验，为你挑选了1个好方法。 ... [详细]
程序员
IntelliJ IDEA无法解析spring数据jpa @query注释中的实体

如何解决《IntelliJIDEA无法解析spring数据jpa@query注释中的实体》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Visual Studio 2015中将WinMerge设置为差异/合并工具

如何解决《在VisualStudio2015中将WinMerge设置为差异/合并工具》经验，为你挑选了1个好方法。 ... [详细]
程序员
plt.tight_layout()与sns.clustermap

如何解决《plt.tight_layout()与sns.clustermap》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何增加MongoDB中索引引用的数组元素？

如何解决《如何增加MongoDB中索引引用的数组元素？》经验，为你挑选了0个好方法。 ... [详细]

k78283381

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章