基于Hadoop实现Knn算法

作者：oDavid_仔o_880 | 2021-11-04 15:25

Knn算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。Knn方法在类别决策时，只与极少量的相邻样本有关。由于Knn方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，Knn方法较其他方法更为合适。

Knn算法流程如下：

1. 计算当前测试数据与训练数据中的每条数据的距离

2. 圈定距离最近的K个训练对象，作为测试对象的近邻

3. 计算这K个训练对象中出现最多的那个类别，并将这个类别作为当前测试数据的类别

以上流程是Knn的大致流程，按照这个流程实现的MR效率并不高，可以在这之上进行优化。在这里只写，跟着这个流程走的MR实现过程。

Mapper的设计：

由于测试数据相比于训练数据来说，会小很多，因此将测试数据用Java API读取，放到内存中。所以，在setup中需要对测试数据进行初始化。在map中，计算当前测试数据与每条训练数据的距离，Mapper的值类型为：。map输出键类型为IntWritable，存放当前测试数据的下标，输出值类型为MyWritable，这是自定义值类型，其中存放的是距离以及与测试数据比较的训练数据的类别。

public class KnnMapper extends Mapper {
 Logger log = LoggerFactory.getLogger(KnnMapper.class);
 private List testData;
 @Override
 protected void setup(Context context)
 throws IOException, InterruptedException {
 // TODO Auto-generated method stub
 Configuration conf= context.getConfiguration();
 conf.set("fs.defaultFS", "master:8020");
 String testPath= conf.get("TestFilePath");
 Path testDataPath= new Path(testPath);
 FileSystem fs = FileSystem.get(conf);
 this.testData = readTestData(fs,testDataPath);
 }
 
 @Override
 protected void map(Object key, Text value, Context context)
 throws IOException, InterruptedException {
 // TODO Auto-generated method stub
 String[] line = value.toString().split(",");
 float[] trainData = new float[line.length-1];
 for(int i=0;i readTestData(FileSystem fs,Path Path) throws IOException {
 //补充代码完整
 FSDataInputStream data = fs.open(Path);
 BufferedReader bf = new BufferedReader(new InputStreamReader(data));
 String line = "";
 List list = new ArrayList<>();
 while ((line = bf.readLine()) != null) {
 String[] items = line.split(",");
 float[] item = new float[items.length];
 for(int i=0;i

自定义值类型MyWritable如下：

public class MyWritable implements Writable{
 private float distance;
 private String label;
 public MyWritable() {
 // TODO Auto-generated constructor stub
 }
 public MyWritable(float distance, String label){
 this.distance = distance;
 this.label = label;
 }
 @Override
 public String toString() {
 // TODO Auto-generated method stub
 return this.distance+","+this.label;
 }
 @Override
 public void write(DataOutput out) throws IOException {
 // TODO Auto-generated method stub
 out.writeFloat(distance);
 out.writeUTF(label);
 }
 @Override
 public void readFields(DataInput in) throws IOException {
 // TODO Auto-generated method stub
 this.distance = in.readFloat();
 this.label = in.readUTF();
 
 }
 public float getDistance() {
 return distance;
 }
 
 public void setDistance(float distance) {
 this.distance = distance;
 }
 
 public String getLabel() {
 return label;
 }
 
 public void setLabel(String label) {
 this.label = label;
 }
 
}

在Reducer端中，需要初始化参数K，也就是圈定距离最近的K个对象的K值。在reduce中需要对距离按照从小到大的距离排序，然后选取前K条数据，再计算这K条数据中，出现次数最多的那个类别并将这个类别与测试数据的下标相对应并以K，V的形式输出到HDFS上。

public class KnnReducer extends Reducer {
 private int K;
 @Override
 protected void setup(Context context)
 throws IOException, InterruptedException {
 // TODO Auto-generated method stub
 this.K = context.getConfiguration().getInt("K", 5);
 }
 @Override
 /***
 * key => 0
 * values =>([1,lable1],[2,lable2],[3,label2],[2.5,lable2])
 */
 protected void reduce(IntWritable key, Iterable values,
 Context context) throws IOException, InterruptedException {
 // TODO Auto-generated method stub
 MyWritable[] mywrit = new MyWritable[K];
 for(int i=0;i map = new HashMap<>(); 
  for (int i = 0; i < strArray.length; i++) {
 String str = strArray[i];
   if (map.containsKey(str)) {
 int tmp = map.get(str);
 map.put(str, tmp+1);
 }else{
 map.put(str, 1);
 }
 }
  // 得到hashmap中值最大的键，也就是出现次数最多的类别
  Collection count = map.values();
  int maxCount = Collections.max(count);
  String maxString = "";
  for(Map.Entry entry: map.entrySet()){
   if (maxCount == entry.getValue()) {
 maxString = entry.getKey();
 }
  }
  return maxString; 
 }
}

最后输出结果如下：

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

推荐阅读

程序员
Google Apps脚本，选择一个工作表

如何解决《GoogleApps脚本，选择一个工作表》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何快速查找本地计算机名称？

如何解决《如何快速查找本地计算机名称？》经验，为你挑选了1个好方法。 ... [详细]
程序员
iOS检测类是Objective-C还是Swift

如何解决《iOS检测类是Objective-C还是Swift》经验，为你挑选了1个好方法。 ... [详细]
程序员
一旦点击,如何防止JCheckBoxMenuItem关闭？

如何解决《一旦点击,如何防止JCheckBoxMenuItem关闭？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将Angular和localForage与webpack一起使用

如何解决《将Angular和localForage与webpack一起使用》经验，为你挑选了1个好方法。 ... [详细]
程序员
意外的卷积结果

如何解决《意外的卷积结果》经验，为你挑选了0个好方法。 ... [详细]
程序员
JSON的正确语言是什么

如何解决《JSON的正确语言是什么》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java:没有空格的字符串操作

如何解决《Java:没有空格的字符串操作》经验，为你挑选了1个好方法。 ... [详细]
程序员
Laravel Guzzle不起作用,但Curl确实如此

如何解决《LaravelGuzzle不起作用,但Curl确实如此》经验，为你挑选了1个好方法。 ... [详细]
程序员
更好的byebug格式(带颜色)

如何解决《更好的byebug格式(带颜色)》经验，为你挑选了1个好方法。 ... [详细]
程序员
网格单元向量中的元素替换

如何解决《网格单元向量中的元素替换》经验，为你挑选了0个好方法。 ... [详细]
程序员
Heroku + Rails4.2:Cloudfront设置

如何解决《Heroku+Rails4.2:Cloudfront设置》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何获得随机日期和时间C#

如何解决《如何获得随机日期和时间C#》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么这两个div宽度不等于100%？

如何解决《为什么这两个div宽度不等于100%？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Fabric Crashlytics - 汇总来自不同项目的数据

如何解决《FabricCrashlytics-汇总来自不同项目的数据》经验，为你挑选了1个好方法。 ... [详细]
程序员
拼出可访问时间标签的当前时间

如何解决《拼出可访问时间标签的当前时间》经验，为你挑选了0个好方法。 ... [详细]
程序员
NPM问题使用AWS codedeploy部署nodejs实例

如何解决《NPM问题使用AWScodedeploy部署nodejs实例》经验，为你挑选了1个好方法。 ... [详细]
程序员
在python中舍入科学记数法

如何解决《在python中舍入科学记数法》经验，为你挑选了1个好方法。 ... [详细]
程序员
(取5(范围))和(范围5)之间有什么区别

如何解决《(取5(范围))和(范围5)之间有什么区别》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django UserCreationForm无法正常工作

如何解决《DjangoUserCreationForm无法正常工作》经验，为你挑选了1个好方法。 ... [详细]

oDavid_仔o_880

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章