当前位置:  开发笔记 > 编程语言 > 正文

如何获得特定预测的逻辑回归特征的相对重要性?

如何解决《如何获得特定预测的逻辑回归特征的相对重要性?》经验,为你挑选了0个好方法。

我正在使用Logistic回归(在scikit中)来解决二进制分类问题,并且我有兴趣能够解释每个单独的预测.更确切地说,我有兴趣预测正类的概率,并测量每个特征对该预测的重要性.

使用系数(Betas)作为衡量重要性通常是一个坏主意,如此回答,但我还没有找到一个好的选择.

到目前为止,我发现的最好的是以下3个选项:

    蒙特卡罗选项:修复所有其他特征,重新运行预测,用训练集中的随机样本替换我们要评估的特征.这样做了很多次.这将建立正类基线概率.然后与原始运行的正类概率进行比较.差异是衡量功能的重要性的指标.

    "留一法"分类器:要评估功能的重要性,首先要创建一个使用所有功能的模型,然后再创建另一个使用除被测试功能之外的所有功能的模型.使用两种模型预测新观察结果.两者之间的区别在于该功能的重要性.

    调整后的测试数据:根据此答案,通过"系数的大小乘以数据中相应参数的标准差"对特征的重要性进行排序.

所有选项(使用贝塔,蒙特卡罗和"留一出")对我来说似乎都是糟糕的解决方案.

    蒙特卡洛依赖于训练集的分布,我找不到任何支持它的文献.

    "留一个"很容易被两个相关的特征欺骗(当一个缺席时,另一个将介入补偿,两者都将被赋予0重要性).

    调整后的贝塔听起来似乎有道理,但我找不到任何支持它的文献.

实际问题:在决策时,使用线性分类器解释每个要素的重要性的最佳方法是什么?

快速注释#1:对于随机森林这是微不足道的,我们可以简单地使用prediction + bias分解,正如在这篇博文中精美地解释的那样.这里的问题是如何使用线性分类器(如Logistic回归)进行类似的操作.

快速注释#2:stackoverflow上有很多相关的问题(1 2 3 4 5).我无法找到这个具体问题的答案.

推荐阅读
惬听风吟jyy_802
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有