11赞

MongoDB之Hadoop驱动介绍

作者：雯颜哥_135 | 2021-09-10 20:59

对于Collection分块后，会产生一个Config数据库，在这个数据库下有一个叫做chunks的表，其中每个chunk记录了start_row与end_row，

1. 一些概念Hadoop是一套Apache开源的分布式计算框架，其中包括了分布式文件系统DFS与分布式计算模型MapReduce，而MongoDB是一个面向文档的分布式数据库，它是NoSql的一种，，而这里所要介绍的就是一个MongoDB的Hadoop驱动，这里就是把MongoDB作为MapReduce的输入源，充分利用MapReduce的优势来对MongoDB的数据进行处理与计算。
2. MongoDB的Hadoop驱动目前这个版本的Hadoop驱动还是测试版本，还不能应用到实际的生产环境中去。
你可以从下面网址https://github.com/mongodb/mongo-hadoop下载到最新的驱动包，下面是它的一些依赖说明：

目前推荐用最新的Hadoop 0.20.203版本，或者是用Cloudera CHD3还做

MongoDB的版本最好是用1.8+

还有是MongoDB的java驱动必须是2.5.3+

它的一些特点：

提供了一个Hadoop的Input和Output适配层，读于对数据的读入与写出

提供了大部分参数的可配置化，这些参数都可有XML配置文件来进行配置，你可以在配置文件中定义要查询的字段，查询条件，排序策略等

目前还不支持的功能：

目前还不支持多Sharding的源数据读取

还不支持数据的split操作

3. 代码分析
运行其examples中的WordCount.java代码

4. 分块机制的简单介绍

这里没有实现对不同shard的split操作，也就是说，对于分布在不同shard上的数据，只会产生一个Map操作。
这里本人提供了一个分片的思路，有兴趣的可以讨论一下。

我们知道，对于Collection分块后，会产生一个Config数据库，在这个数据库下有一个叫做chunks的表，其中每个chunk记录了start_row与end_row，而这些chunk可以分布在不同的shard上，我们可以通过分析这个Collection来得到每个shard上的chunk信息，从而把每个shard上的chunk信息组合成一个InputSplit,这就是这里的MongoInputSplit,这样的话，只要去修改MongoInputFormat这个类的getSplits这个方法，加入对chunks表的分析，得到shard的信息，这样就可以实现多split的Map操作，对于不同的Shard,每个Map都会调用本地的Mongos代理服务，这样就实现了移动计算而不是移动数据的目的。

推荐阅读

程序员
使用C++包装库的C#性能

如何解决《使用C++包装库的C#性能》经验，为你挑选了1个好方法。 ... [详细]
程序员
在R中按计数合并数据帧

如何解决《在R中按计数合并数据帧》经验，为你挑选了1个好方法。 ... [详细]
程序员
__uuidof（someVar）是做什么的？

如何解决《__uuidof（someVar）是做什么的？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用MATLAB将信号发送到IP地址的端口？

如何解决《如何使用MATLAB将信号发送到IP地址的端口？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何从新行设置数组的每个元素

如何解决《如何从新行设置数组的每个元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在代码优先迁移中强制删除并重新创建选定的表？

如何解决《如何在代码优先迁移中强制删除并重新创建选定的表？》经验，为你挑选了1个好方法。 ... [详细]
程序员
尝试执行迁移时模型的未处理挂起操作

如何解决《尝试执行迁移时模型的未处理挂起操作》经验，为你挑选了0个好方法。 ... [详细]
程序员
Xcode命令行测试执行问题

如何解决《Xcode命令行测试执行问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
将字符串拆分为数组并修剪每个值的有效方法 - Swift

如何解决《将字符串拆分为数组并修剪每个值的有效方法-Swift》经验，为你挑选了1个好方法。 ... [详细]
程序员
django - 在查询集上切片/过滤后过滤,其中结果已被限制

如何解决《django-在查询集上切片/过滤后过滤,其中结果已被限制》经验，为你挑选了2个好方法。 ... [详细]
程序员
Laravel 5:Apache php http认证

如何解决《Laravel5:Apachephphttp认证》经验，为你挑选了0个好方法。 ... [详细]
程序员
SQL Server - 正确分解付款

如何解决《SQLServer-正确分解付款》经验，为你挑选了1个好方法。 ... [详细]
程序员
Swift PureMVC:不符合NSObjectProtocol

如何解决《SwiftPureMVC:不符合NSObjectProtocol》经验，为你挑选了1个好方法。 ... [详细]
程序员
Sitecore“随机”对象引用未设置为对象的实例

如何解决《Sitecore“随机”对象引用未设置为对象的实例》经验，为你挑选了0个好方法。 ... [详细]
程序员
滚动并获取具有对资源的特定访问权限的用户列表

如何解决《滚动并获取具有对资源的特定访问权限的用户列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
错误C2355:'this':只能在非静态成员函数或非静态数据成员初始值设定项中引用

如何解决《错误C2355:'this':只能在非静态成员函数或非静态数据成员初始值设定项中引用》经验，为你挑选了1个好方法。 ... [详细]
程序员
从inquirer.js菜单运行protractor.js测试

如何解决《从inquirer.js菜单运行protractor.js测试》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用JAAS从webapp1登录webapp2

如何解决《使用JAAS从webapp1登录webapp2》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用sorted()一次对两列进行排序

如何解决《如何使用sorted()一次对两列进行排序》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何刷新(F5)并使用AngularJS获取另一个页面？

如何解决《如何刷新(F5)并使用AngularJS获取另一个页面？》经验，为你挑选了0个好方法。 ... [详细]

雯颜哥_135

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章