当前位置:  开发笔记 > 编程语言 > 正文

在幂律分布之后标准化/缩放/标准化多个变量的正确方法,用于线性组合

如何解决《在幂律分布之后标准化/缩放/标准化多个变量的正确方法,用于线性组合》经验,为你挑选了0个好方法。

我想将社交网络图中的一些节点指标组合成单个值,以便对节点进行排序:

in_degree + betweenness_centrality = informal_power_index

问题在于,in_degree并且betweenness_centrality在不同的尺度上进行测量,例如0-15对0-35000,并遵循幂律分布(至少绝对不是正态分布)

有没有一种很好的方法来重新调整变量,以便在确定变量时不会主导另一个变量informal_power_index

三种明显的方法是:

标准化变量(减去mean和除以stddev).这似乎会破坏分布太多,隐藏长尾值和高峰值之间的巨大差异.

通过减去min(variable)和除以,将变量重新调整到[0,1]范围max(variable).这似乎更接近解决问题,因为它不会改变分布的形状,但也许它不会真正解决问题?特别是手段会有所不同.

通过将每个值除以来均衡均值mean(variable).这不会解决尺度上的差异,但平均值可能对比较更重要?

还有其他想法吗?

推荐阅读
小色米虫_524
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有