6赞

pyspark 随机森林的实现

作者：赛亚兔备_393 | 2022-10-17 00:44

这篇文章主要介绍了pyspark随机森林的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

随机森林是由许多决策树构成，是一种有监督机器学习方法，可以用于分类和回归，通过合并汇总来自个体决策树的结果来进行预测，采用多数选票作为分类结果，采用预测结果平均值作为回归结果。

“森林”的概念很好理解，“随机”是针对森林中的每一颗决策树，有两种含义：第一种随机是数据采样随机，构建决策树的训练数据集通过有放回的随机采样，并且只会选择一定百分比的样本，这样可以在数据集合存在噪声点、异常点的情况下，有些决策树的构造过程中不会选择到这些噪声点、异常点从而达到一定的泛化作用在一定程度上抑制过拟合；第二种随机是特征随机，训练集会包含一系列特征，随机选择一部分特征进行决策树的构建。通过这些差异点来训练的每一颗决策树都会学习输入与输出的关系，随机森林的强大之处也就在于此。

废话不多说，直接上代码：

from pyspark import SparkConf
from pyspark.sql import SparkSession
from pyspark.ml.linalg import Vectors
from pyspark.ml.feature import StringIndexer
from pyspark.ml.classification import RandomForestClassifier
from pyspark.sql import Row
import pandas as pd
from sklearn import metrics
 
if __name__ == "__main__":
  appname = "RandomForestClassifier"
  master ="local[4]" 
  conf = SparkConf().setAppName(appname).setMaster(master) #spark配置        
  spark=SparkSession.builder.config(conf=conf).getOrCreate()#spark实例化
  
#读取数据
  data=spark.read.csv('良恶性乳腺癌数据.csv',header=True)
  
#构造训练数据集
  dataSet = data.na.fill('0').rdd.map(list)#用0填充空值  
  trainData, testData= dataSet.randomSplit([0.7, 0.3], seed=7)
  trainingSet = trainData.map(lambda x:Row(label=x[-1], features=Vectors.dense(x[:-1]))).toDF()  
  train_num = trainingSet.count()
  print("训练样本数:{}".format(train_num))
 
   
#使用随机森林进行训练
  stringIndexer = StringIndexer(inputCol="label", outputCol="indexed")
  si_model = stringIndexer.fit(trainingSet)
  train_tf = si_model.transform(trainingSet)
  train_tf.show(5)  
  rf = RandomForestClassifier(numTrees=100, labelCol="indexed", seed=7)
  rfModel = rf.fit(train_tf)
   
#输出模型特征重要性、子树权重
  print("模型特征重要性:{}".format(rfModel.featureImportances))
  print("模型特征数:{}".format(rfModel.numFeatures))
  
#预测测试集
  testSet = testData.map(lambda x:Row(label=x[-1], features=Vectors.dense(x[:-1]))).toDF()
  test_num=testSet.count()
  print("测试样本数:{}".format(test_num))  
  si_model = stringIndexer.fit(testSet)
  test_tf = si_model.transform(testSet)  
  predictResult = rfModel.transform(test_tf)
  predictResult.show(5)
  spark.stop()
 
#将预测结果转为python中的dataframe
  columns=predictResult.columns#提取强表字段
  predictResult=predictResult.take(test_num)#
  predictResult=pd.DataFrame(predictResult,columns=columns)#转为python中的dataframe
 
#性能评估
  y=list(predictResult['indexed'])
  y_pred=list(predictResult['prediction'])
  y_predprob=[x[1] for x in list(predictResult['probability'])]
  precision_score=metrics.precision_score(y, y_pred)#精确率
  recall_score=metrics.recall_score(y, y_pred)#召回率
  accuracy_score=metrics.accuracy_score(y, y_pred)#准确率
  f1_score=metrics.f1_score(y, y_pred)#F1分数
  auc_score=metrics.roc_auc_score(y, y_predprob)#auc分数
  print("精确率:",precision_score )#精确率
  print("召回率:",recall_score )#召回率
  print("准确率:",accuracy_score )#准确率
  print("F1分数:", f1_score)#F1分数
  print("auc分数:",auc_score )#auc分数

运行结果：

到此这篇关于pyspark 随机森林的实现的文章就介绍到这了,更多相关pyspark 随机森林内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

推荐阅读

程序员
运行Java字节码

如何解决《运行Java字节码》经验，为你挑选了1个好方法。 ... [详细]
程序员
禁用在Visual Studio 2015 for ASP.NET 5项目中自动添加新文件

如何解决《禁用在VisualStudio2015forASP.NET5项目中自动添加新文件》经验，为你挑选了0个好方法。 ... [详细]
程序员
Haskell中的语法错误

如何解决《Haskell中的语法错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
启动任务并等待多次

如何解决《启动任务并等待多次》经验，为你挑选了1个好方法。 ... [详细]
程序员
常数,但仅适用于此范围的其余部分

如何解决《常数,但仅适用于此范围的其余部分》经验，为你挑选了1个好方法。 ... [详细]
程序员
投影中的变量"x"在GROUP BY中不存在

如何解决《投影中的变量"x"在GROUPBY中不存在》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何搜索"到下一行所述的无效地址"错误

如何解决《如何搜索"到下一行所述的无效地址"错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
延迟加载html5视频

如何解决《延迟加载html5视频》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在javafx中制作透明场景和舞台？

如何解决《如何在javafx中制作透明场景和舞台？》经验，为你挑选了2个好方法。 ... [详细]
程序员
无法从'HTMLInputElement'中读取'selectionStart'属性:

如何解决《无法从'HTMLInputElement'中读取'selectionStart'属性:》经验，为你挑选了0个好方法。 ... [详细]
程序员
PHP:将base64转换为图像

如何解决《PHP:将base64转换为图像》经验，为你挑选了1个好方法。 ... [详细]
程序员
添加clojure依赖项并运行lein uberjar会导致java.lang.IllegalAccessError

如何解决《添加clojure依赖项并运行leinuberjar会导致java.lang.IllegalAccessError》经验，为你挑选了0个好方法。 ... [详细]
程序员
R tuneRF不稳定，如何优化？

如何解决《RtuneRF不稳定，如何优化？》经验，为你挑选了1个好方法。 ... [详细]
程序员
安全规则:检查空身份验证

如何解决《安全规则:检查空身份验证》经验，为你挑选了1个好方法。 ... [详细]
程序员
运行DSharp示例时出现错误信息

如何解决《运行DSharp示例时出现错误信息》经验，为你挑选了1个好方法。 ... [详细]
程序员
JS兼容Haxe承诺？

如何解决《JS兼容Haxe承诺？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在C++中重载了==和!=运算符

如何解决《在C++中重载了==和!=运算符》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将对象转换为对象数组(或对象集合)

如何解决《如何将对象转换为对象数组(或对象集合)》经验，为你挑选了2个好方法。 ... [详细]
程序员
SWIFT - LocationManager循环多次？

如何解决《SWIFT-LocationManager循环多次？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Iphone Phonegap中播放内联视频

如何解决《如何在IphonePhonegap中播放内联视频》经验，为你挑选了1个好方法。 ... [详细]

赛亚兔备_393

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章