大数据分析:结合Hadoop或ElasticMapReduce使用Hunk

作者：农大军乐团_697 | 2021-08-27 01:36

作者JonathanAllen，译者张晓鹏Hunk是Splunk公司一款比较新的产品，用来对Hadoop和其它NoSQL数据存储进行探测和可视化，它的新版本将会支持亚马逊的ElasticMapReduce。结合Hadoop使用HunkHadoop由两个单元组成，首先是被称为HDFS的存储单元，HDFS可

作者 Jonathan Allen ，译者张晓鹏 Hunk是Splunk公司一款比较新的产品，用来对Hadoop和其它NoSQL数据存储进行探测和可视化，它的新版本将会支持亚马逊的Elastic MapReduce。结合Hadoop使用Hunk Hadoop由两个单元组成，首先是被称为HDFS的存储单元，HDFS可

作者 Jonathan Allen ，译者张晓鹏

Hunk是Splunk公司一款比较新的产品，用来对Hadoop和其它NoSQL数据存储进行探测和可视化，它的新版本将会支持亚马逊的Elastic MapReduce。

结合Hadoop使用Hunk

Hadoop由两个单元组成，首先是被称为HDFS的存储单元，HDFS可以分布在成千上万个复制的节点上。接下来是MapReduce单元，它负责跟踪和管理被命名为map-reduce jobs的作业。

之前，开发者会用到Splunk Hadoop Connect (SHC)连接器。SHC通过常用的推模型（push model）来输出数据到Hadoop中，这块处理相当地好，但相反方向的处理却可能会有问题。当通过Splunk来探测数据时，原始的数据会被吸收到Splunk Server来检索和处理。就像人们猜想的那样，这个过程并没有发挥出Hadoop计算能力的优势。

Hunk通过提供与Hadoop MapReduce节点协同工作的适配器来解决这个问题。Splunk的查询被转化成Hadoop MapReduce的作业，这些作业在Hadoop集群中处理，最终只有结果被取回到Splunk 服务器中进行分析和可视化。

通过这种方式，Hunk提供了抽象层，以便用户和开发者不需要关心怎么去写Hadoop MapReduce的作业。Hunk还能在MapReduce作业启动前就提供结果预览，以减少无用搜索的数量。

结合Elastic MapReduce使用Hunk

亚马逊的Elastic MapReduce可以看做是对Hadoop的补充，同时也是Hadoop的竞争者。EMR既可以运行在Hadoop HDFS集群上，也可以直接运行在AWS S3上。亚马逊宣称使用AWS S3的优势在于比HDFS集群更易于管理。

当运行Elastic MapReduce时，Hunk提供了相同的抽象层和预览功能，就像它在Hadoop上做的一样。所以从用户的观点来看，在Hadoop和EMR之间切换不会造成什么变化。

云上的Hunk

在云上托管Hunk的传统方法是买一个标准版的许可证，然后部署到虚拟机中，这和你现场安装一样简单。接下来是对Hunk的运行实例进行手动配置以让它对应到正确的Hadoop或AWS集群上。

这个月的新版本里，Hunk的运行实例可以在AWS上进行自动化配置，这包括自动发现EMR数据源，这样Hunk实例可以在几分钟内上线使用。为了充分利用这个优势，Hunk运行实例是按小时来计费。

虚索引（Virtual Indexes）

Hunk中的有个关键概念是“虚索引（Virtual Indexes）”。这些索引已不同原本的意义，变成只是由Hunk来体现Hadoop和EMR集群处理的一种方式。从Splunk的用户界面上看，它们像是真正的索引，即使其数据处理是在map-reduce作业中完成的。并且，由于看起来像索引，你可以在它们之上创建持久的二级索引（persistent secondary indexes）。当你要处理部分数据，然后进一步检查或在多个方面可视化时，这个持久的二级索引会非常有用。

查看英文原文：Big Data Analytics: Using Hunk with Hadoop and Elastic MapReduce

推荐阅读

程序员
plt.tight_layout()与sns.clustermap

如何解决《plt.tight_layout()与sns.clustermap》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何增加MongoDB中索引引用的数组元素？

如何解决《如何增加MongoDB中索引引用的数组元素？》经验，为你挑选了0个好方法。 ... [详细]
程序员
AndroidManifest xml文件中android:supportsRtl ="true"的用途是什么？

如何解决《AndroidManifestxml文件中android:supportsRtl="true"的用途是什么？》经验，为你挑选了3个好方法。 ... [详细]
程序员
ActionBar与工具栏或ActionBar和工具栏

如何解决《ActionBar与工具栏或ActionBar和工具栏》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Javascript中声明函数的最有效方法是什么？

如何解决《在Javascript中声明函数的最有效方法是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Facebook PHP SDK获取Facebook广告内容

如何解决《使用FacebookPHPSDK获取Facebook广告内容》经验，为你挑选了0个好方法。 ... [详细]
程序员
Erlang中的排列示例

如何解决《Erlang中的排列示例》经验，为你挑选了1个好方法。 ... [详细]
程序员
函数返回类型是否会影响过载的选择？

如何解决《函数返回类型是否会影响过载的选择？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用不相等的索引将系列分配给DataFrame

如何解决《使用不相等的索引将系列分配给DataFrame》经验，为你挑选了1个好方法。 ... [详细]
程序员
Azure Elastic DB中ReferenceTableInfo与ShardedTableInfo有什么区别？

如何解决《AzureElasticDB中ReferenceTableInfo与ShardedTableInfo有什么区别？》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法创建Google Analytics配置文件

如何解决《无法创建GoogleAnalytics配置文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
当我从虚拟基础派生D时,为什么在VS2015中sizeof(D)增加了8个字节？

如何解决《当我从虚拟基础派生D时,为什么在VS2015中sizeof(D)增加了8个字节？》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么新的Date()函数在chrome和firefox中提供不同的输出

如何解决《为什么新的Date()函数在chrome和firefox中提供不同的输出》经验，为你挑选了1个好方法。 ... [详细]
程序员
Numpy列和行向量

如何解决《Numpy列和行向量》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以使用实际Chrome安装的Cookie运行Selenium ChromeDriver吗？

如何解决《我可以使用实际Chrome安装的Cookie运行SeleniumChromeDriver吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用C++编译比使用C++ 98慢11？

如何解决《使用C++编译比使用C++98慢11？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用webpack构建时mime-db\db.json出错

如何解决《使用webpack构建时mime-db\db.json出错》经验，为你挑选了1个好方法。 ... [详细]
程序员
Elixir阻止了GenServer进程

如何解决《Elixir阻止了GenServer进程》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Android电视上显示数字软件键盘？

如何解决《如何在Android电视上显示数字软件键盘？》经验，为你挑选了0个好方法。 ... [详细]
程序员
从阵列打印值有时不起作用

如何解决《从阵列打印值有时不起作用》经验，为你挑选了1个好方法。 ... [详细]

农大军乐团_697

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章