当前位置:  开发笔记 > 大数据 > 正文

使用R下载gzip压缩数据文件,提取和导入数据

如何解决《使用R下载gzip压缩数据文件,提取和导入数据》经验,为你挑选了2个好方法。

这个问题的后续内容:如何使用R下载和解压缩gzip压缩文件?例如(来自UCI机器学习库),我有一个保险数据文件.如何使用R下载?

这是数据网址:http://archive.ics.uci.edu/ml/databases/tic/tic.tar.gz.



1> JD Long..:

我喜欢Ramnath的方法,但我会像这样使用临时文件:

tmpdir <- tempdir()

url <- 'http://archive.ics.uci.edu/ml/databases/tic/tic.tar.gz'
file <- basename(url)
download.file(url, file)

untar(file, compressed = 'gzip', exdir = tmpdir )
list.files(tmpdir)

list.files()应产生是这样的:

[1] "TicDataDescr.txt" "dictionary.txt"   "ticdata2000.txt"  "ticeval2000.txt"  "tictgts2000.txt" 

如果你需要为很多文件自动化这个过程,你可以解析它.



2> Ramnath..:

这是一个快速的方法.

# create download directory and set it
.exdir = '~/Desktop/tmp'
dir.create(.exdir)
.file = file.path(.exdir, 'tic.tar.gz')

# download file
url = 'http://archive.ics.uci.edu/ml/databases/tic/tic.tar.gz'
download.file(url, .file)

# untar it
untar(.file, compressed = 'gzip', exdir = path.expand(.exdir))


我很了解Dirk.但按此计算,如果所有重要的问题都是答案背后的基本概念,那么关于SO的几个问题将不得不关闭.根据我的拙见,想要提取下载档案的读者将无法根据其他问题达到目的.我不想延长这个讨论,但是如果有其他几个人认为这是一个简单的扩展和重复,请随时关闭这个问题.
推荐阅读
路人甲
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有