当前位置:  开发笔记 > 编程语言 > 正文

处理回归(机器学习)中的未分配(null)特征值?

如何解决《处理回归(机器学习)中的未分配(null)特征值?》经验,为你挑选了1个好方法。

我想做线性回归分析.我有多个功能.某些功能对数据中的某些项具有未分配(null)值.因为对于某些项目,数据源中缺少某些特定的功能值.为了更清楚,我提供了一些例子: 在此输入图像描述

如您所见,某些项目缺少某些功能的值.现在,我只是将它分配给'Null',但是在对数据进行线性回归分析时如何处理这些值?我不希望这个未分配的值错误地影响回归模型.不幸的是,我无法摆脱未分配的特征值所呈现的项目.我计划使用Python进行回归.



1> Prune..:

您需要忽略这些行 - 您已经说过不能这样做了,并且缺少值的数量并不是一个好主意 - 或者使用主动折扣这些项目的算法,或者使用算法(这是技术术语)用于填写有根据的猜测)缺失的数据.

我们可以提供有限的帮助,因为您没有向我们提供您想要丢失数据的语义.您可以使用您最喜欢的"最接近匹配"算法来对比您所拥有的数据,从而归咎于某些缺失值.例如,您可能能够从其他数据推断出对区域的良好猜测.

对于非线性,离散项(即区域),您可能希望将NULL保留为单独的区域.如果你没有足够的缺失条目,你将能够获得一个体面的模型.

一个简单的估算是用特征的平均值替换每个NULL,但这仅适用于具有适当均值(即不是区域)的那些.

总的来说,我建议您搜索"估算缺失数据"的适当参考.由于我们不确定您的需求,我们对此无能为力,因此这样做超出了SO的范围.

推荐阅读
重庆制造漫画社
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有