JAVA实现基于皮尔逊相关系数的相似度详解

作者：U友50081205_653 | 2022-11-30 10:32

这篇文章主要介绍了JAVA实现基于皮尔逊相关系数的相似度详解，具有一定参考价值，需要的朋友可以了解下。

最近在看《集体智慧编程》，相比其他机器学习的书籍，这本书有许多案例，更贴近实际，而且也很适合我们这种准备学习machinelearning的小白。

这本书我觉得不足之处在于，里面没有对算法的公式作讲解，而是直接用代码去实现，所以给想具体了解该算法带来了不便，所以想写几篇文章来做具体的说明。以下是第一篇，对皮尔逊相关系数作讲解，并采用了自己比较熟悉的java语言做实现。

皮尔逊数学公式如下，来自维基百科。

其中，E是数学期望，cov表示协方差，\sigma_X和\sigma_Y是标准差。

化简后得：

皮尔逊相似度计算的算法还是很简单的，实现起来也不难。只要求变量X、Y、乘积XY，X的平方，Y的平方的和。我的代码所使用的数据测试集来自《集体智慧编程》一书。代码如下：

package pearsonCorrelationScore;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Map.Entry;
/**
 * @author shenchao
 *
 *     皮尔逊相关度评价
 *
 *     以《集体智慧编程》一书用户评价相似度数据集做测试
 */
public class PearsonCorrelationScore {
	private Map> dataset = null;
	public PearsonCorrelationScore() {
		initDataSet();
	}
	/**
* 初始化数据集
*/
	private void initDataSet() {
		dataset = new HashMap>();
		// 初始化Lisa Rose 数据集
		Map roseMap = new HashMap();
		roseMap.put("Lady in the water", 2.5);
		roseMap.put("Snakes on a Plane", 3.5);
		roseMap.put("Just My Luck", 3.0);
		roseMap.put("Superman Returns", 3.5);
		roseMap.put("You, Me and Dupree", 2.5);
		roseMap.put("The Night Listener", 3.0);
		dataset.put("Lisa Rose", roseMap);
		// 初始化Jack Matthews 数据集
		Map jackMap = new HashMap();
		jackMap.put("Lady in the water", 3.0);
		jackMap.put("Snakes on a Plane", 4.0);
		jackMap.put("Superman Returns", 5.0);
		jackMap.put("You, Me and Dupree", 3.5);
		jackMap.put("The Night Listener", 3.0);
		dataset.put("Jack Matthews", jackMap);
		// 初始化Jack Matthews 数据集
		Map geneMap = new HashMap();
		geneMap.put("Lady in the water", 3.0);
		geneMap.put("Snakes on a Plane", 3.5);
		geneMap.put("Just My Luck", 1.5);
		geneMap.put("Superman Returns", 5.0);
		geneMap.put("You, Me and Dupree", 3.5);
		geneMap.put("The Night Listener", 3.0);
		dataset.put("Gene Seymour", geneMap);
	}
	public Map> getDataSet() {
		return dataset;
	}
	/**
* @param person1
*      name
* @param person2
*      name
* @return 皮尔逊相关度值
*/
	public double sim_pearson(String person1, String person2) {
		// 找出双方都评论过的电影,（皮尔逊算法要求）
		List list = new ArrayList();
		for (Entry p1 : dataset.get(person1).entrySet()) {
			if (dataset.get(person2).containsKey(p1.getKey())) {
				list.add(p1.getKey());
			}
		}
		double sumX = 0.0;
		double sumY = 0.0;
		double sumX_Sq = 0.0;
		double sumY_Sq = 0.0;
		double sumXY = 0.0;
		int N = list.size();
		for (String name : list) {
			Map p1Map = dataset.get(person1);
			Map p2Map = dataset.get(person2);
			sumX += p1Map.get(name);
			sumY += p2Map.get(name);
			sumX_Sq += Math.pow(p1Map.get(name), 2);
			sumY_Sq += Math.pow(p2Map.get(name), 2);
			sumXY += p1Map.get(name) * p2Map.get(name);
		}
		double numerator = sumXY - sumX * sumY / N;
		double denominator = Math.sqrt((sumX_Sq - sumX * sumX / N)
		* (sumY_Sq - sumY * sumY / N));
		// 分母不能为0
		if (denominator == 0) {
			return 0;
		}
		return numerator / denominator;
	}
	public static void main(String[] args) {
		PearsonCorrelationScore pearsonCorrelationScore = new PearsonCorrelationScore();
		System.out.println(pearsonCorrelationScore.sim_pearson("Lisa Rose",
		"Jack Matthews"));
	}
}

将各个测试集的数据反映到二维坐标面中，如下所示：

上述程序求得的值实际上就为该直线的斜率。其斜率的区间在[-1,1]之间，其绝对值的大小反映了两者相似度大小，斜率越大，相似度越大，当相似度为1时，该直线为一条对角线。

总结

以上就是本文关于JAVA实现基于皮尔逊相关系数的相似度详解的全部内容，希望对大家有所帮助。如有不足之处，欢迎留言指出。感谢朋友们对本站的支持！

推荐阅读

程序员
Android:`RecognizerIntent.EXTRA_MAX_RESULTS`不限制结果数量

如何解决《Android:`RecognizerIntent.EXTRA_MAX_RESULTS`不限制结果数量》经验，为你挑选了0个好方法。 ... [详细]
程序员
如果找到字符串,则执行switch语句

如何解决《如果找到字符串,则执行switch语句》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android 6.0多重权限

如何解决《Android6.0多重权限》经验，为你挑选了7个好方法。 ... [详细]
程序员
如何在PHP中使用var_dump()查看长字符串的完整内容

如何解决《如何在PHP中使用var_dump()查看长字符串的完整内容》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在安全(C++)中存储加密密钥？

如何解决《如何在安全(C++)中存储加密密钥？》经验，为你挑选了1个好方法。 ... [详细]
程序员
String.replaceAllMapped具有异步结果

如何解决《String.replaceAllMapped具有异步结果》经验，为你挑选了0个好方法。 ... [详细]
程序员
用Laravel发送邮件

如何解决《用Laravel发送邮件》经验，为你挑选了1个好方法。 ... [详细]
程序员
从每个对话中获取最后一条消息

如何解决《从每个对话中获取最后一条消息》经验，为你挑选了1个好方法。 ... [详细]
程序员
来自CGAffineTransform的UnsafePointer <CGAffineTransform>

如何解决《来自CGAffineTransform的UnsafePointer<CGAffineTransform>》经验，为你挑选了1个好方法。 ... [详细]
程序员
Ajax调用MVC Controller返回"NOT FOUND"

如何解决《Ajax调用MVCController返回"NOTFOUND"》经验，为你挑选了1个好方法。 ... [详细]
程序员
函数中的$ http.get方法

如何解决《函数中的$http.get方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
CSS LESS - 嵌套的兄弟选择器

如何解决《CSSLESS-嵌套的兄弟选择器》经验，为你挑选了1个好方法。 ... [详细]
程序员
从ASP.Net 5项目中彻底删除bower

如何解决《从ASP.Net5项目中彻底删除bower》经验，为你挑选了1个好方法。 ... [详细]
程序员
将参数传递给cluetip(coldfusion)内容页面

如何解决《将参数传递给cluetip(coldfusion)内容页面》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何保持粘性窗口始终聚焦在令人敬畏的wm

如何解决《如何保持粘性窗口始终聚焦在令人敬畏的wm》经验，为你挑选了0个好方法。 ... [详细]
程序员
Kafka 0.9 - 如何通过java api创建主题

如何解决《Kafka0.9-如何通过javaapi创建主题》经验，为你挑选了1个好方法。 ... [详细]
程序员
Docker Compose - 图像名称

如何解决《DockerCompose-图像名称》经验，为你挑选了1个好方法。 ... [详细]
程序员
R strsplit不会拆分为"."？

如何解决《Rstrsplit不会拆分为"."？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Ember单元测试组件具有冒泡动作

如何解决《Ember单元测试组件具有冒泡动作》经验，为你挑选了0个好方法。 ... [详细]
程序员
通过VSTS Rest API启动构建并传递变量

如何解决《通过VSTSRestAPI启动构建并传递变量》经验，为你挑选了1个好方法。 ... [详细]

U友50081205_653

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章