当前位置:  开发笔记 > 编程语言 > 正文

运行统计分析的数据集

如何解决《运行统计分析的数据集》经验,为你挑选了4个好方法。

互联网上有哪些数据集我可以进行统计分析?



1> Shane..:

datasets程序包包含在基础R中.运行此命令可查看完整列表:

library(help="datasets")

除此之外,还有许多可以提取数据的软件包,以及许多其他包含重要数据的软件包.其中,您可能希望从查看HistData包开始,该包"提供了统计和数据可视化历史中有趣且重要的小数据集合".

对于财务数据,该quantmod软件包提供了一个通用界面,用于从谷歌,雅虎,FRED和其他人那里提取时间序列数据:

library(quantmod)
getSymbols("YHOO",src="google") # from google finance 
getSymbols("GOOG",src="yahoo") # from yahoo finance 
getSymbols("DEXUSJP",src="FRED") # FX rates from FRED 

FRED(圣路易斯联邦储备银行)确实是自由经济数据的地雷.

许多R软件包捆绑了特定于其目标的数据.因此,如果您对遗传学,多级模型等感兴趣,相关的包将经常具有该分析的规范示例.此外,书籍包通常附带重现所有示例所需的数据.

以下是相关包的一些示例:

alr3:包括伴随应用线性回归的数据(http://www.stat.umn.edu/alr)

arm:包括来自Gelman的"使用回归和多级/分层模型的数据分析"的一些数据(其余数据和代码在本书的网站上)

BaM:包括"贝叶斯方法:社会和行为科学方法"的数据

BayesDA:包括来自Gelman的"贝叶斯数据分析"的数据

cat:包括用于分析变量数据集的数据

cimis:从加利福尼亚州灌溉管理信息系统CIMIS检索数据

cshapes:包括GIS数据边界和数据

ecdat:计量经济学的数据集

ElemStatLearn:包括来自"统计学习,数据挖掘,推理和预测的元素"的数据

emdbook:来自"生态模型和数据"的数据

Fahrmeir:"基于广义线性模型的多元统计建模"一书中的数据

fEcoFin:Rmetrics的"经济和金融数据集"

fds:功能数据集

fma:"预测:方法和应用程序"中的数据集

gamair:"广义附加模型:R简介"的数据

geomapdata:地形和地质测绘数据

简而言之:包含"坚果壳中的R"一书中的所有数据

nytR:通过纽约时报API提供对国会投票数据的访问

openintro:书中的数据

引物:包括"生态学与R"的数据

qtlbook:包括R/qtl书籍的数据

RGraphics:包含来自"R Graphics"一书的数据

Read.isi:获取旧的世界生育率调查数据



2> doug..:

网上广泛的选择.例如,这是一个庞大的体育数据库目录(所有数据都免费提供,至少这是我的经验).在该目录中是databaseBaseball.com,其中包含自1915年左右以来曾经玩过职业棒球的每个玩家的完整数据集.

StatLib是另一个优秀的资源 - 非常方便.这个单一的网页列出了超过一百个数据库的4-5行摘要,所有数据库都可以通过单击每个数据集摘要开头的"表"链接以平面文件形式提供.

R的基本分布预先包装了大量不同的数据集(在R 2.10中为122).要获取它们的列表(以及单行描述):

data(package="datasets")

同样,大多数软件包都带有几个数据集(有时甚至更多).你可以用同样的方式看到它们:

data(package="latticeExtra")
data(package="vcd")

这些数据集是包装手册和给定包装的插图中提到的数据集,用于说明包装功能.

一些包含大量数据集的R包(同样易于扫描,因此您可以选择有趣的内容):AER,DAAG和vcd.

我发现R的另一个令人印象深刻的是它的I/O. 假设您想通过yahoo finance API获取一些非常具体的财务数据.让我们说从2001年到2009年每个月关闭标准普尔500指数的开盘价和收盘价,只需这样做:

tick_data = read.csv(paste("http://ichart.finance.yahoo.com/table.csv?",
    "s=%5EGSPC&a=03&b=1&c=2001&d=03&e=1&f=2009&g=m&ignore=.csv")) 

在这一行代码中,R获取了tick数据,将其整形为数据帧并将其绑定到'tick_data'.(这是一个方便的备忘单,带有用于构建URL的Yahoo Finance API符号,如上所述)



3> Binary Worri..:

您是否考虑过堆栈溢出数据转储?

您已经熟悉数据所代表的内容,即它所跟踪的业务逻辑



4> Nick Allen..:

http://www.data.gov.uk/data

最近由Tim Berners-Lee设立

显然是基于英国的数据,但这应该不重要.涵盖从废弃汽车到学校缺勤到农产品价格指数的所有内容

推荐阅读
mobiledu2402851323
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有