免费的大型数据集来试验Hadoop

作者：coco2冰冰 | 2023-07-15 14:12

如何解决《免费的大型数据集来试验Hadoop》经验，为你挑选了4个好方法。

你知道任何大型数据集来试验免费/低成本的Hadoop吗？任何相关的指针/链接都表示赞赏.

Prefernce:

至少一GB的数据.

Web服务器的生产日志数据.

到目前为止我发现的很少:

维基百科转储

http://wiki.freebase.com/wiki/Data_dumps

http://aws.amazon.com/publicdatasets/

我们也可以运行自己的爬虫来收集来自维基百科等网站的数据吗？关于如何做到这一点的任何指针也受到赞赏.

1> Binary Nerd..：

关于抓取和维基百科的问题很少.

您已链接到维基百科数据转储,您可以使用UMD 的Cloud9项目在Hadoop中处理此数据.

他们有一个页面:使用维基百科

要添加到列表中的另一个数据源是:

ClueWeb09 - 在09年1月至2月期间收集的10亿个网页.5TB压缩.

使用爬虫来生成数据应该在一个单独的问题中发布到一个关于Hadoop/MapReduce的问题.

链接“使用Wikipedia”已死。是该替代http://lintool.github.com/Cloud9/docs/content/wikipedia.html吗？

2> APC..：

一个明显的来源:Stack Overflow三部曲数据转储.这些可以在知识共享许可下免费获得.

3> Peter Wipper..：

这是用于机器学习的189个数据集的集合(这是hadoop g最好的应用程序之一):http: //archive.ics.uci.edu/ml/datasets.html

4> Olvagor..：

它不是日志文件,但也许您可以使用OpenStreetMap中的行星文件:http://wiki.openstreetmap.org/wiki/Planet.osm

CC许可证,大约160 GB(未打包)

每个大陆也有较小的文件:http://wiki.openstreetmap.org/wiki/World

推荐阅读

程序员
如何检测导航抽屉外的触摸事件

如何解决《如何检测导航抽屉外的触摸事件》经验，为你挑选了1个好方法。 ... [详细]
程序员
TypeError:需要类似字节的对象,而不是python和CSV中的'str'

如何解决《TypeError:需要类似字节的对象,而不是python和CSV中的'str'》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用UUIDField作为主键时，如何判断模型实例是否是新的

如何解决《使用UUIDField作为主键时，如何判断模型实例是否是新的》经验，为你挑选了0个好方法。 ... [详细]
程序员
dnx-clr-win-x86.1.0,0,rc1-final和dnx-clr-win-x86.1.0,0.rc1-update1之间的区别

如何解决《dnx-clr-win-x86.1.0,0,rc1-final和dnx-clr-win-x86.1.0,0.rc1-update1之间的区别》经验，为你挑选了2个好方法。 ... [详细]
程序员
关闭未知长度的通道

如何解决《关闭未知长度的通道》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用SQLAlchemy定义没有主键的表？

如何解决《如何使用SQLAlchemy定义没有主键的表？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在工具栏下方放置溢出菜单而不是溢出菜单以重叠工具栏

如何解决《如何在工具栏下方放置溢出菜单而不是溢出菜单以重叠工具栏》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么pandas将unsigned int大于2**63-1转换为对象？

如何解决《为什么pandas将unsignedint大于2**63-1转换为对象？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在C++中隐藏我的AWS S3访问密钥和密钥？

如何解决《如何在C++中隐藏我的AWSS3访问密钥和密钥？》经验，为你挑选了0个好方法。 ... [详细]
程序员
alvarotrigo.com/fullPage/和bootstrap 3网格问题

如何解决《alvarotrigo.com/fullPage/和bootstrap3网格问题》经验，为你挑选了0个好方法。 ... [详细]
程序员
格式化图表中的数字ios swift

如何解决《格式化图表中的数字iosswift》经验，为你挑选了1个好方法。 ... [详细]
程序员
允许Google Compute Engine(GCE)中的WebSockets

如何解决《允许GoogleComputeEngine(GCE)中的WebSockets》经验，为你挑选了1个好方法。 ... [详细]
程序员
构建GoogleSignInOptions时的firebase serverClientId

如何解决《构建GoogleSignInOptions时的firebaseserverClientId》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何使用Realm排序？

如何解决《如何使用Realm排序？》经验，为你挑选了1个好方法。 ... [详细]
程序员
toLocaleLowerCase()和toLowerCase()之间的区别

如何解决《toLocaleLowerCase()和toLowerCase()之间的区别》经验，为你挑选了1个好方法。 ... [详细]
程序员
For循环在Groovy和Java中的工作方式不同

如何解决《For循环在Groovy和Java中的工作方式不同》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Android中从名称或lat获取PlaceID？

如何解决《如何在Android中从名称或lat获取PlaceID？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在原生Android文件选择器中按mimetype或extention进行过滤

如何解决《在原生Android文件选择器中按mimetype或extention进行过滤》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Java中同时对三个ArrayLists进行排序的最有效方法是什么？

如何解决《在Java中同时对三个ArrayLists进行排序的最有效方法是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在IntelliJ IDEA中做笔记

如何解决《在IntelliJIDEA中做笔记》经验，为你挑选了1个好方法。 ... [详细]

coco2冰冰

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章