当前位置:  开发笔记 > 编程语言 > 正文

免费的大型数据集来试验Hadoop

如何解决《免费的大型数据集来试验Hadoop》经验,为你挑选了4个好方法。

你知道任何大型数据集来试验免费/低成本的Hadoop吗?任何相关的指针/链接都表示赞赏.

Prefernce:

至少一GB的数据.

Web服务器的生产日志数据.

到目前为止我发现的很少:

    维基百科转储

    http://wiki.freebase.com/wiki/Data_dumps

    http://aws.amazon.com/publicdatasets/

我们也可以运行自己的爬虫来收集来自维基百科等网站的数据吗?关于如何做到这一点的任何指针也受到赞赏.



1> Binary Nerd..:

关于抓取和维基百科的问题很少.

您已链接到维基百科数据转储,您可以使用UMD 的Cloud9项目在Hadoop中处理此数据.

他们有一个页面:使用维基百科

要添加到列表中的另一个数据源是:

ClueWeb09 - 在09年1月至2月期间收集的10亿个网页.5TB压缩.

使用爬虫来生成数据应该在一个单独的问题中发布到一个关于Hadoop/MapReduce的问题.


链接“使用Wikipedia”已死。是该替代http://lintool.github.com/Cloud9/docs/content/wikipedia.html吗?

2> APC..:

一个明显的来源:Stack Overflow三部曲数据转储.这些可以在知识共享许可下免费获得.



3> Peter Wipper..:

这是用于机器学习的189个数据集的集合(这是hadoop g最好的应用程序之一):http: //archive.ics.uci.edu/ml/datasets.html



4> Olvagor..:

它不是日志文件,但也许您可以使用OpenStreetMap中的行星文件:http://wiki.openstreetmap.org/wiki/Planet.osm

CC许可证,大约160 GB(未打包)

每个大陆也有较小的文件:http://wiki.openstreetmap.org/wiki/World

推荐阅读
coco2冰冰
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有