我想使用python和scikit-learn库进行某种功能选择.
据我所知,Lasso回归可用于特征选择,如单变量选择.
我的简单数据集是这样的.
G1 G2 G3 ... GN Class 1.0 4.0 5.0 ... 1.0 X 4.0 5.0 9.0 ... 1.0 X 9.0 6.0 3.0 ... 2.0 Y ...
我想找到前N个属性(Gs),这些属性可能会影响很多类,使用套索回归.虽然我必须处理参数,但是可以像这样应用套索回归.
lasso = Lasso() # A = list of [G1, G2, ..., GN], B = [X, X, Y, ...] lasso.fit(A, B) print (lasso.coef_)
如果它具有更高的lasso.coef_值,那么决定该属性是否与Class更相关是否正确?另外,我想知道是否有一些使用回归选择top-N基因的规则.如果我使用PCC,可以使用.05等P值作为选择的阈值,但我不知道如何处理Lasso.有人可以给我一个想法吗?