在Hadoop中,您可以使用辅助排序机制在将值发送到reducer之前对值进行排序.
在Hadoop中完成此操作的方法是添加值以按键排序,然后使用一些自定义组和键比较方法挂钩到排序系统.
所以你需要一个基本上由真实密钥和要排序的值组成的密钥.为了使这个性能足够快,我需要一种创建复合键的方法,该复合键也很容易分解为组和键比较方法所需的单独部分.
最聪明的方法是做到这一点.是否有一个"开箱即用"的Hadoop类可以帮助我,或者我是否必须为每个map-reduce步骤创建一个单独的键类?
如果密钥实际上是由多个部分组成的复合(由于分区也需要单独使用),我该怎么做?
你们推荐什么?
PS我想添加标签"secondary-sort"但我还没有足够的代表这样做.