互联网上有哪些数据集我可以进行统计分析?
该datasets
程序包包含在基础R中.运行此命令可查看完整列表:
library(help="datasets")
除此之外,还有许多可以提取数据的软件包,以及许多其他包含重要数据的软件包.其中,您可能希望从查看HistData包开始,该包"提供了统计和数据可视化历史中有趣且重要的小数据集合".
对于财务数据,该quantmod
软件包提供了一个通用界面,用于从谷歌,雅虎,FRED和其他人那里提取时间序列数据:
library(quantmod) getSymbols("YHOO",src="google") # from google finance getSymbols("GOOG",src="yahoo") # from yahoo finance getSymbols("DEXUSJP",src="FRED") # FX rates from FRED
FRED(圣路易斯联邦储备银行)确实是自由经济数据的地雷.
许多R软件包捆绑了特定于其目标的数据.因此,如果您对遗传学,多级模型等感兴趣,相关的包将经常具有该分析的规范示例.此外,书籍包通常附带重现所有示例所需的数据.
以下是相关包的一些示例:
alr3:包括伴随应用线性回归的数据(http://www.stat.umn.edu/alr)
arm:包括来自Gelman的"使用回归和多级/分层模型的数据分析"的一些数据(其余数据和代码在本书的网站上)
BaM:包括"贝叶斯方法:社会和行为科学方法"的数据
BayesDA:包括来自Gelman的"贝叶斯数据分析"的数据
cat:包括用于分析变量数据集的数据
cimis:从加利福尼亚州灌溉管理信息系统CIMIS检索数据
cshapes:包括GIS数据边界和数据
ecdat:计量经济学的数据集
ElemStatLearn:包括来自"统计学习,数据挖掘,推理和预测的元素"的数据
emdbook:来自"生态模型和数据"的数据
Fahrmeir:"基于广义线性模型的多元统计建模"一书中的数据
fEcoFin:Rmetrics的"经济和金融数据集"
fds:功能数据集
fma:"预测:方法和应用程序"中的数据集
gamair:"广义附加模型:R简介"的数据
geomapdata:地形和地质测绘数据
简而言之:包含"坚果壳中的R"一书中的所有数据
nytR:通过纽约时报API提供对国会投票数据的访问
openintro:书中的数据
引物:包括"生态学与R"的数据
qtlbook:包括R/qtl书籍的数据
RGraphics:包含来自"R Graphics"一书的数据
Read.isi:获取旧的世界生育率调查数据
网上广泛的选择.例如,这是一个庞大的体育数据库目录(所有数据都免费提供,至少这是我的经验).在该目录中是databaseBaseball.com,其中包含自1915年左右以来曾经玩过职业棒球的每个玩家的完整数据集.
StatLib是另一个优秀的资源 - 非常方便.这个单一的网页列出了超过一百个数据库的4-5行摘要,所有数据库都可以通过单击每个数据集摘要开头的"表"链接以平面文件形式提供.
R的基本分布预先包装了大量不同的数据集(在R 2.10中为122).要获取它们的列表(以及单行描述):
data(package="datasets")
同样,大多数软件包都带有几个数据集(有时甚至更多).你可以用同样的方式看到它们:
data(package="latticeExtra") data(package="vcd")
这些数据集是包装手册和给定包装的插图中提到的数据集,用于说明包装功能.
一些包含大量数据集的R包(同样易于扫描,因此您可以选择有趣的内容):AER,DAAG和vcd.
我发现R的另一个令人印象深刻的是它的I/O. 假设您想通过yahoo finance API获取一些非常具体的财务数据.让我们说从2001年到2009年每个月关闭标准普尔500指数的开盘价和收盘价,只需这样做:
tick_data = read.csv(paste("http://ichart.finance.yahoo.com/table.csv?", "s=%5EGSPC&a=03&b=1&c=2001&d=03&e=1&f=2009&g=m&ignore=.csv"))
在这一行代码中,R获取了tick数据,将其整形为数据帧并将其绑定到'tick_data'.(这是一个方便的备忘单,带有用于构建URL的Yahoo Finance API符号,如上所述)
您是否考虑过堆栈溢出数据转储?
您已经熟悉数据所代表的内容,即它所跟踪的业务逻辑
http://www.data.gov.uk/data
最近由Tim Berners-Lee设立
显然是基于英国的数据,但这应该不重要.涵盖从废弃汽车到学校缺勤到农产品价格指数的所有内容