20赞

在二元分类中使用Lasso回归查找最佳特征

作者：帆侮听我悄悄说星星 | 2023-09-10 14:07

如何解决《在二元分类中使用Lasso回归查找最佳特征》经验，为你挑选了1个好方法。

我正在研究大数据,我想找到重要的功能.因为我是一名生物学家,所以请原谅我缺乏的知识.

我的数据集有大约5000个属性和500个样本,它们具有二进制类0和1.此外,数据集有偏差 - 样本大约400 0和100 1.我想找到一些在决定课程时影响最大的特征.

  A1   A2   A3  ... Gn Class
S1    1.0  0.8 -0.1 ... 1.0 0 
S2    0.8  0.4  0.9 ... 1.0 0
S3   -1.0 -0.5 -0.8 ... 1.0 1
...

当我从前一个问题得到一些建议时,我试图找到属性系数高的重要特征,使用L1惩罚使用Lasso回归,因为它使得不重要特征的得分为0.

我正在使用scikit-learn库进行这项工作.

所以,我的问题是这样的.

我可以使用Lasso回归来实现有偏见的二元类吗？如果不是,使用Logistic回归是否是一个很好的解决方案,尽管它不使用L1惩罚？

如何使用LassoCV找到alpha的最佳值？该文件称LassoCV支持它,但我找不到该功能.

这种分类还有其他好的方法吗？

非常感谢你.

1> Ash..：

您应该使用分类器而不是回归器,因此SVM或Logistic回归都可以完成这项工作.相反,您可以使用SGDClassifier,您可以将损耗参数设置为Logistic回归的"log"或SVM的"hinge".在SGDClassifier中,您可以将惩罚设置为"l1","l2"或"elasticnet"中的任意一个,即两者的组合.

你可以通过循环不同的alpha值并在验证集上评估性能来找到'alpha'的最大值,或者你可以使用gridsearchcv:

tuned_parameters = {'alpha': [10 ** a for a in range(-6, -2)]}
clf = GridSearchCV(SGDClassifier(loss='hinge', penalty='elasticnet',l1_ratio=0.15, n_iter=5, shuffle=True, verbose=False, n_jobs=10, average=False, class_weight='balanced')
                  , tuned_parameters, cv=10, scoring='f1_macro')

#now clf is the best classifier found given the search space
clf.fit(X_train, Y_train)
#you can find the best alpha here
print(clf.best_params_)

这样,搜索您在tuned_parameters中提供的alpha值范围,然后找到最佳值.您可以将效果标准从"f1_macro"更改为"f1_weighted"或其他指标.

要根据标签解决数据集的偏度,请使用SGDCassifier的class_weight参数并将其设置为" balance ".

要查找有助于类标签的前10个功能,您可以找到以下索引:

for i in range(0, clf.best_estimator_.coef_.shape[0]):
    top10 = np.argsort(clf.best_estimator_.coef_[i])[-10:]

注1:将数据集的某些部分保留为验证/测试集并在找到最佳模型后对剩余数据进行评估总是好的.

注2:通过将行或列划分为行或列的"l2"或"l1"以使用规范化器来查看其对性能的影响,通常可以通过不同类型的特征规范化和样本规范化来进行一些操作.

注3:对于弹性网正则化,使用l1_ratio参数稍作一点.

推荐阅读

程序员
如何在vi编辑器中搜索带空格和特殊字符的字符串

如何解决《如何在vi编辑器中搜索带空格和特殊字符的字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何获取当前位置和拨出电话摘机时间(确切的呼叫选择时间)？

如何解决《如何获取当前位置和拨出电话摘机时间(确切的呼叫选择时间)？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Python字典未正确更新

如何解决《Python字典未正确更新》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过RESTful API部署Tensorflow模型的示例

如何解决《通过RESTfulAPI部署Tensorflow模型的示例》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何在首次启动时显示离子中的应用指令

如何解决《如何在首次启动时显示离子中的应用指令》经验，为你挑选了1个好方法。 ... [详细]
程序员
Angular 2,Visual Studio 2015更新1,类型脚本配置

如何解决《Angular2,VisualStudio2015更新1,类型脚本配置》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何在Google自定义搜索中指定图像类型

如何解决《如何在Google自定义搜索中指定图像类型》经验，为你挑选了0个好方法。 ... [详细]
程序员
Postgres创建/恢复在亚马逊ec2上花费了大量时间

如何解决《Postgres创建/恢复在亚马逊ec2上花费了大量时间》经验，为你挑选了0个好方法。 ... [详细]
程序员
带有多个跨度的文本溢出省略号

如何解决《带有多个跨度的文本溢出省略号》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在动态生成的表行jquery中添加和操作id

如何解决《如何在动态生成的表行jquery中添加和操作id》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何检测无法在android中连接wifi？

如何解决《如何检测无法在android中连接wifi？》经验，为你挑选了1个好方法。 ... [详细]
程序员
添加按钮到以编程方式创建的UIView

如何解决《添加按钮到以编程方式创建的UIView》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从主目录访问产品风味类？

如何解决《如何从主目录访问产品风味类？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android数据绑定NoSuchMethodError

如何解决《Android数据绑定NoSuchMethodError》经验，为你挑选了1个好方法。 ... [详细]
程序员
Spring Boot - 字体很棒的OTS解析错误:无法转换

如何解决《SpringBoot-字体很棒的OTS解析错误:无法转换》经验，为你挑选了2个好方法。 ... [详细]
程序员
为什么YYYY-MM-DD!= YYYY/MM/DD

如何解决《为什么YYYY-MM-DD!=YYYY/MM/DD》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用whatsapp分享链接

如何解决《使用whatsapp分享链接》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何减少if语句的长列表？

如何解决《如何减少if语句的长列表？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用斯坦福NLP(StanfordNERTagger和StanfordPOSTagger)为西班牙语设置NLTK

如何解决《使用斯坦福NLP(StanfordNERTagger和StanfordPOSTagger)为西班牙语设置NLTK》经验，为你挑选了1个好方法。 ... [详细]
程序员
由于LayoutManager为NULL,RecycleView在Fragment中崩溃

如何解决《由于LayoutManager为NULL,RecycleView在Fragment中崩溃》经验，为你挑选了1个好方法。 ... [详细]

帆侮听我悄悄说星星

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章