Spark,ML,StringIndexer:处理看不见的标签

作者：女女的家_747 | 2023-09-08 08:48

如何解决《Spark,ML,StringIndexer:处理看不见的标签》经验，为你挑选了3个好方法。

我的目标是构建一个多字符分类器.

我已经构建了一个用于特征提取的管道,它包括一个StringIndexer转换器,用于将每个类名映射到一个标签,该标签将用于分类器训练步骤.

管道安装在训练集上.

测试集必须由拟合的管道处理,以便提取相同的特征向量.

知道我的测试集文件具有与训练集相同的结构.这里可能的情况是在测试集中面对一个看不见的类名,在这种情况下,StringIndexer将无法找到标签,并且将引发异常.

这种情况有解决方案吗？或者我们如何避免这种情况发生？

1> queise..：

使用Spark 2.2(7-2017发布),您可以.setHandleInvalid("keep")在创建索引器时使用该选项.使用此选项,索引器在看到新标签时会添加新索引.请注意,对于以前的版本,您还可以"skip"选择,这使索引器忽略(删除)具有新标签的行.

val categoryIndexerModel = new StringIndexer()
  .setInputCol("category")
  .setOutputCol("indexedCategory")
  .setHandleInvalid("keep") // options are "keep", "error" or "skip"

2> Chris Fregly..：

在Spark 1.6中有一种解决方法.

这是jira:https: //issues.apache.org/jira/browse/SPARK-8764

这是一个例子:

val categoryIndexerModel = new StringIndexer()
  .setInputCol("category")
  .setOutputCol("indexedCategory")
  .setHandleInvalid("skip") // new method.  values are "error" or "skip"

我开始使用它,但最终回到KrisP的第二个要点,关于将这个特定的Estimator拟合到完整的数据集.

转换IndexToString后,您将在管道中稍后需要它.

这是修改后的例子:

val categoryIndexerModel = new StringIndexer()
  .setInputCol("category")
  .setOutputCol("indexedCategory")
  .fit(itemsDF) // Fit the Estimator and create a Model (Transformer)

... do some kind of classification ...

val categoryReverseIndexer = new IndexToString()
  .setInputCol(classifier.getPredictionCol)
  .setOutputCol("predictedCategory")
  .setLabels(categoryIndexerModel.labels) // Use the labels from the Model

但是当您尝试将模型应用于新数据时会发生什么？您可能会发现某些列中有新值不在原始测试或训练数据中.我担心setHandleInvalid("skip")将导致整行被丢弃,当你真的只想忽略以前看不见的值时,仍然使用行中的其他值.

3> KrisP..：

没有好办法,我很害怕.或

在应用之前过滤掉具有未知标签的测试示例 StringIndexer

或者适合StringIndexer列车和测试数据框架的结合,因此您可以放心所有标签都在那里

或者将具有未知标签的测试示例案例转换为已知标签

以下是执行上述操作的示例代码:

// get training labels from original train dataframe
val trainlabels = traindf.select(colname).distinct.map(_.getString(0)).collect  //Array[String]
// or get labels from a trained StringIndexer model
val trainlabels = simodel.labels 

// define an UDF on your dataframe that will be used for filtering
val filterudf = udf { label:String => trainlabels.contains(label)}

// filter out the bad examples 
val filteredTestdf = testdf.filter( filterudf(testdf(colname)))

// transform unknown value to some value, say "a"
val mapudf = udf { label:String => if (trainlabels.contains(label)) label else "a"}

// add a new column to testdf: 
val transformedTestdf = testdf.withColumn( "newcol", mapudf(testdf(colname)))

推荐阅读

程序员
来自PHP的mp4 - 不在HTML5视频标签中播放

如何解决《来自PHP的mp4-不在HTML5视频标签中播放》经验，为你挑选了0个好方法。 ... [详细]
程序员
在两个连续数组之间放置逗号

如何解决《在两个连续数组之间放置逗号》经验，为你挑选了1个好方法。 ... [详细]
程序员
其他进程中的PID错误

如何解决《其他进程中的PID错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
键入功能面向对象语言的系统

如何解决《键入功能面向对象语言的系统》经验，为你挑选了1个好方法。 ... [详细]
程序员
angular.js延迟在回调中不起作用

如何解决《angular.js延迟在回调中不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
将大型Excel/Csv文件拆分为PHP或Javascript上的多个文件

如何解决《将大型Excel/Csv文件拆分为PHP或Javascript上的多个文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
关联关系中的角色名称

如何解决《关联关系中的角色名称》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在ios地图中突出显示国家/地区

如何解决《如何在ios地图中突出显示国家/地区》经验，为你挑选了1个好方法。 ... [详细]
程序员
派生列中的SSIS日期为yyyy-mm-dd格式

如何解决《派生列中的SSIS日期为yyyy-mm-dd格式》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用puppet为不同的用户设置自定义bash环境？

如何解决《如何使用puppet为不同的用户设置自定义bash环境？》经验，为你挑选了0个好方法。 ... [详细]
程序员
循环无限循环(2.7)

如何解决《循环无限循环(2.7)》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将URL：PORT指向apache中的特定目录

如何解决《如何将URL：PORT指向apache中的特定目录》经验，为你挑选了1个好方法。 ... [详细]
程序员
保留视图之间上载的文件

如何解决《保留视图之间上载的文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
在JellyBean中没有调用onNewIntent

如何解决《在JellyBean中没有调用onNewIntent》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Codeigniter中使用页眉和页脚的最佳方法

如何解决《在Codeigniter中使用页眉和页脚的最佳方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android会在键入时自动将EditText的内容移动到下一行

如何解决《Android会在键入时自动将EditText的内容移动到下一行》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Excel 2010 Powerpivot Addin中为SQL Server 2008 R2中的每个连接表键入密码

如何解决《在Excel2010PowerpivotAddin中为SQLServer2008R2中的每个连接表键入密码》经验，为你挑选了0个好方法。 ... [详细]
程序员
是否可以删除列表列表中的项目而不会丢失原始引用？

如何解决《是否可以删除列表列表中的项目而不会丢失原始引用？》经验，为你挑选了1个好方法。 ... [详细]
程序员
从td标签BeautifulSoup Python获取href属性链接

如何解决《从td标签BeautifulSoupPython获取href属性链接》经验，为你挑选了1个好方法。 ... [详细]
程序员
按日期按日期在php中按日期排序数组

如何解决《按日期按日期在php中按日期排序数组》经验，为你挑选了1个好方法。 ... [详细]

女女的家_747

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章