15赞

python sklearn包——混淆矩阵、分类报告等自动生成方式

作者：我我檬檬我我186 | 2022-02-22 10:48

今天小编就为大家分享一篇pythonsklearn包——混淆矩阵、分类报告等自动生成方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

preface：做着最近的任务，对数据处理，做些简单的提特征，用机器学习算法跑下程序得出结果，看看哪些特征的组合较好，这一系列流程必然要用到很多函数，故将自己常用函数记录上。应该说这些函数基本上都会用到，像是数据预处理，处理完了后特征提取、降维、训练预测、通过混淆矩阵看分类效果，得出报告。

1.输入

从数据集开始，提取特征转化为有标签的数据集，转为向量。拆分成训练集和测试集，这里不多讲，在上一篇博客中谈到用StratifiedKFold()函数即可。在训练集中有data和target开始。

2.处理

def my_preprocessing(train_data):
  from sklearn import preprocessing
  X_normalized = preprocessing.normalize(train_data ,norm = "l2",axis=0)#使用l2范式，对特征列进行正则
  return X_normalized
 
def my_feature_selection(data, target):
  from sklearn.feature_selection import SelectKBest
  from sklearn.feature_selection import chi2
  data_new = SelectKBest(chi2, k= 50).fit_transform(data,target)
  return data_new
 
def my_PCA(data):#data without target, just train data, withou train target.
  from sklearn import decomposition
  pca_sklearn = decomposition.PCA()
  pca_sklearn.fit(data)
  main_var = pca_sklearn.explained_variance_
  print sum(main_var)*0.9
  import matplotlib.pyplot as plt
  n = 15
  plt.plot(main_var[:n])
  plt.show()
 
def clf_train(data,target):
  from sklearn import svm
  #from sklearn.linear_model import LogisticRegression
  clf = svm.SVC(C=100,kernel="rbf",gamma=0.001)
  clf.fit(data,target)
 
  #clf_LR = LogisticRegression()
  #clf_LR.fit(x_train, y_train)
  #y_pred_LR = clf_LR.predict(x_test)
  return clf
 
def my_confusion_matrix(y_true, y_pred):
  from sklearn.metrics import confusion_matrix
  labels = list(set(y_true))
  conf_mat = confusion_matrix(y_true, y_pred, labels = labels)
  print "confusion_matrix(left labels: y_true, up labels: y_pred):"
  print "labels\t",
  for i in range(len(labels)):
    print labels[i],"\t",
  print 
  for i in range(len(conf_mat)):
    print i,"\t",
    for j in range(len(conf_mat[i])):
      print conf_mat[i][j],'\t',
    print 
  print 
 
def my_classification_report(y_true, y_pred):
  from sklearn.metrics import classification_report
  print "classification_report(left: labels):"
  print classification_report(y_true, y_pred)

my_preprocess()函数：

主要使用sklearn的preprocessing函数中的normalize()函数，默认参数为l2范式，对特征列进行正则处理。即每一个样例，处理标签，每行的平方和为1.

my_feature_selection()函数：

使用sklearn的feature_selection函数中SelectKBest()函数和chi2()函数，若是用词袋提取了很多维的稀疏特征，有必要使用卡方选取前k个有效的特征。

my_PCA()函数：

主要用来观察前多少个特征是主要特征，并且画图。看看前多少个特征占据主要部分。

clf_train()函数：

可用多种机器学习算法，如SVM, LR, RF, GBDT等等很多，其中像SVM需要调参数的，有专门调试参数的函数如StratifiedKFold()（见前几篇博客）。以达到最优。

my_confusion_matrix()函数：

主要是针对预测出来的结果，和原来的结果对比，算出混淆矩阵，不必自己计算。其对每个类别的混淆矩阵都计算出来了，并且labels参数默认是排序了的。

my_classification_report()函数：

主要通过sklearn.metrics函数中的classification_report()函数，针对每个类别给出详细的准确率、召回率和F-值这三个参数和宏平均值，用来评价算法好坏。另外ROC曲线的话，需要是对二分类才可以。多类别似乎不行。

主要参考sklearn官网

补充拓展：[sklearn] 混淆矩阵——多分类预测结果统计

调用的函数：confusion_matrix(typeTrue, typePred)

typeTrue：实际类别，list类型

typePred：预测类别，list类型

结果如下面的截图：

第i行：实际为第i类，预测到各个类的样本数

第j列：预测为第j类，实际为各个类的样本数

true↓ predict→

以上这篇python sklearn包——混淆矩阵、分类报告等自动生成方式就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

推荐阅读

程序员
在子字符串后查找索引

如何解决《在子字符串后查找索引》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么我不能使用T作为前缀运算符的返回类型？

如何解决《为什么我不能使用T作为前缀运算符的返回类型？》经验，为你挑选了1个好方法。 ... [详细]
程序员
表单无效时保留上载的文件（FileField）

如何解决《表单无效时保留上载的文件（FileField）》经验，为你挑选了0个好方法。 ... [详细]
程序员
有没有办法清除/刷新辅助功能层次缓存

如何解决《有没有办法清除/刷新辅助功能层次缓存》经验，为你挑选了1个好方法。 ... [详细]
程序员
MySQL GROUP_CONCAT()对所有行进行分组

如何解决《MySQLGROUP_CONCAT()对所有行进行分组》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么OrderedDict键视图比较顺序不敏感？

如何解决《为什么OrderedDict键视图比较顺序不敏感？》经验，为你挑选了1个好方法。 ... [详细]
程序员
一个$ http请求到api成功后,Angular $ q库链接方法？

如何解决《一个$http请求到api成功后,Angular$q库链接方法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
FOSUserBundle和Symfony 3.0？

如何解决《FOSUserBundle和Symfony3.0？》经验，为你挑选了2个好方法。 ... [详细]
程序员
流程更新花费的时间比流程已满

如何解决《流程更新花费的时间比流程已满》经验，为你挑选了0个好方法。 ... [详细]
程序员
共享首选项不适用于存储/接收数据

如何解决《共享首选项不适用于存储/接收数据》经验，为你挑选了1个好方法。 ... [详细]
程序员
Clojure有"展开"吗？

如何解决《Clojure有"展开"吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Jar和War包装与嵌入式Tomcat的区别

如何解决《Jar和War包装与嵌入式Tomcat的区别》经验，为你挑选了1个好方法。 ... [详细]
程序员
函数尾部的()中的参数是什么意思？(JavaScript)的

如何解决《函数尾部的()中的参数是什么意思？(JavaScript)的》经验，为你挑选了1个好方法。 ... [详细]
程序员
Elasticsearch java验证api

如何解决《Elasticsearchjava验证api》经验，为你挑选了0个好方法。 ... [详细]
程序员
我有两个函数,我希望第二个函数在第一个函数完成后运行它的动画

如何解决《我有两个函数,我希望第二个函数在第一个函数完成后运行它的动画》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在BlackBerry Priv上调试我的Android应用程序？

如何解决《如何在BlackBerryPriv上调试我的Android应用程序？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Eclipse JDT:如何获取Java内容辅助的数据模型

如何解决《EclipseJDT:如何获取Java内容辅助的数据模型》经验，为你挑选了0个好方法。 ... [详细]
程序员
在selectize.js中显示labelField的多个值

如何解决《在selectize.js中显示labelField的多个值》经验，为你挑选了1个好方法。 ... [详细]
程序员
错误:关系"places"不存在Heroku数据库导入

如何解决《错误:关系"places"不存在Heroku数据库导入》经验，为你挑选了1个好方法。 ... [详细]
程序员
这个x86汇编指令做了什么(添加了xmm0,ds:__ xmm @ 41f00000000000000000000000000000 [edx*8])？

如何解决《这个x86汇编指令做了什么(添加了xmm0,ds:__xmm@41f00000000000000000000000000000[edx*8])？》经验，为你挑选了1个好方法。 ... [详细]

我我檬檬我我186

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章