17赞

SPARK,ML,Tuning,CrossValidator:访问指标

作者：放ch养奶牛 | 2023-09-08 09:12

如何解决《SPARK,ML,Tuning,CrossValidator:访问指标》经验，为你挑选了1个好方法。

为了构建NaiveBayes多类分类器,我使用CrossValidator来选择管道中的最佳参数:

val cv = new CrossValidator()
        .setEstimator(pipeline)
        .setEstimatorParamMaps(paramGrid)
        .setEvaluator(new MulticlassClassificationEvaluator)
        .setNumFolds(10)

val cvModel = cv.fit(trainingSet)

管道包含通常的变换器和估计器,顺序如下:Tokenizer,StopWordsRemover,HashingTF,IDF,最后是NaiveBayes.

是否可以访问为最佳模型计算的指标？

理想情况下,我想访问所有模型的指标,以了解更改参数如何改变分类的质量.但目前,最好的模型已经足够好了.

仅供参考,我使用的是Spark 1.6.0

1> Chris Fregly..：

我是这样做的:

val pipeline = new Pipeline()
  .setStages(Array(tokenizer, stopWordsFilter, tf, idf, word2Vec, featureVectorAssembler, categoryIndexerModel, classifier, categoryReverseIndexer))

...

val paramGrid = new ParamGridBuilder()
  .addGrid(tf.numFeatures, Array(10, 100))
  .addGrid(idf.minDocFreq, Array(1, 10))
  .addGrid(word2Vec.vectorSize, Array(200, 300))
  .addGrid(classifier.maxDepth, Array(3, 5))
  .build()

paramGrid.size // 16 entries

...

// Print the average metrics per ParamGrid entry
val avgMetricsParamGrid = crossValidatorModel.avgMetrics

// Combine with paramGrid to see how they affect the overall metrics
val combined = paramGrid.zip(avgMetricsParamGrid)

...

val bestModel = crossValidatorModel.bestModel.asInstanceOf[PipelineModel]

// Explain params for each stage
val bestHashingTFNumFeatures = bestModel.stages(2).asInstanceOf[HashingTF].explainParams
val bestIDFMinDocFrequency = bestModel.stages(3).asInstanceOf[IDFModel].explainParams
val bestWord2VecVectorSize = bestModel.stages(4).asInstanceOf[Word2VecModel].explainParams
val bestDecisionTreeDepth = bestModel.stages(7).asInstanceOf[DecisionTreeClassificationModel].explainParams

zip工作,但我真的不喜欢它,因为它假设内部知识有关CrossValidator如何工作.他们可能会改变度量数组的构建方式,因此它对于下一个版本的顺序不同而且你已经被软化了,但是因为你的代码仍然有用而不知道你的用法.我想让一个模型的params返回其度量标准.我也希望看到摘要统计数据,而不仅仅是均值.没有标准差的平均值有用吗？

推荐阅读

程序员
使用FFMPEG以最小的重新编码添加覆盖

如何解决《使用FFMPEG以最小的重新编码添加覆盖》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何以允许传递临时值的方式将std :: istream传递给函数？

如何解决《如何以允许传递临时值的方式将std::istream传递给函数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Azure Powershell:Login-AzureRmAccount的相反命令是什么(以前是Clear-AzureProfile)

如何解决《AzurePowershell:Login-AzureRmAccount的相反命令是什么(以前是Clear-AzureProfile)》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Symfony 3.0中给出"string","Vendor\NameBundle\Form\EntitynameType"类型的预期参数

如何解决《在Symfony3.0中给出"string","Vendor\NameBundle\Form\EntitynameType"类型的预期参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在没有循环的情况下将list转换为字符串,在Python中将join()转换为

如何解决《如何在没有循环的情况下将list转换为字符串,在Python中将join()转换为》经验，为你挑选了1个好方法。 ... [详细]
程序员
没有表达式或条件的cfif语句

如何解决《没有表达式或条件的cfif语句》经验，为你挑选了1个好方法。 ... [详细]
程序员
SETEX错误 - "使用封闭网络连接"

如何解决《SETEX错误-"使用封闭网络连接"》经验，为你挑选了1个好方法。 ... [详细]
程序员
与鼠标轮的水平的纸卷在水平的名单上

如何解决《与鼠标轮的水平的纸卷在水平的名单上》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何在单击angularjs时调用两个函数

如何解决《如何在单击angularjs时调用两个函数》经验，为你挑选了2个好方法。 ... [详细]
程序员
将DDL与SELECT混合使用时,"错误:缓存计划不得更改结果类型"

如何解决《将DDL与SELECT混合使用时,"错误:缓存计划不得更改结果类型"》经验，为你挑选了1个好方法。 ... [详细]
程序员
if语句是多余的java

如何解决《if语句是多余的java》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何在python中模拟/修补装饰器？

如何解决《如何在python中模拟/修补装饰器？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Q学习与时间差异与基于模型的强化学习

如何解决《Q学习与时间差异与基于模型的强化学习》经验，为你挑选了1个好方法。 ... [详细]
程序员
python paramiko等待完成执行命令

如何解决《pythonparamiko等待完成执行命令》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过环境变量在Spring Boot中设置日志级别

如何解决《通过环境变量在SpringBoot中设置日志级别》经验，为你挑选了3个好方法。 ... [详细]
程序员
获得Eloquent Model Laravel 5.1的原始属性

如何解决《获得EloquentModelLaravel5.1的原始属性》经验，为你挑选了4个好方法。 ... [详细]
程序员
将std :: map转换为Rcpp :: List？

如何解决《将std::map转换为Rcpp::List？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java发送电子邮件避免smtp中继服务器并直接发送到MX服务器

如何解决《Java发送电子邮件避免smtp中继服务器并直接发送到MX服务器》经验，为你挑选了1个好方法。 ... [详细]
程序员
API接口不得扩展其他接口Retrofit 2

如何解决《API接口不得扩展其他接口Retrofit2》经验，为你挑选了1个好方法。 ... [详细]
程序员
设备锁定时NSTimer不起作用

如何解决《设备锁定时NSTimer不起作用》经验，为你挑选了1个好方法。 ... [详细]

放ch养奶牛

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章