我想做线性回归分析.我有多个功能.某些功能对数据中的某些项具有未分配(null)值.因为对于某些项目,数据源中缺少某些特定的功能值.为了更清楚,我提供了一些例子:
如您所见,某些项目缺少某些功能的值.现在,我只是将它分配给'Null',但是在对数据进行线性回归分析时如何处理这些值?我不希望这个未分配的值错误地影响回归模型.不幸的是,我无法摆脱未分配的特征值所呈现的项目.我计划使用Python进行回归.
您需要忽略这些行 - 您已经说过不能这样做了,并且缺少值的数量并不是一个好主意 - 或者使用主动折扣这些项目的算法,或者使用算法(这是技术术语)用于填写有根据的猜测)缺失的数据.
我们可以提供有限的帮助,因为您没有向我们提供您想要丢失数据的语义.您可以使用您最喜欢的"最接近匹配"算法来对比您所拥有的数据,从而归咎于某些缺失值.例如,您可能能够从其他数据推断出对区域的良好猜测.
对于非线性,离散项(即区域),您可能希望将NULL保留为单独的区域.如果你没有足够的缺失条目,你将能够获得一个体面的模型.
一个简单的估算是用特征的平均值替换每个NULL,但这仅适用于具有适当均值(即不是区域)的那些.
总的来说,我建议您搜索"估算缺失数据"的适当参考.由于我们不确定您的需求,我们对此无能为力,因此这样做超出了SO的范围.