10赞

在多列上使用Spark ML的OneHotEncoder

作者：黄晓敏3023 | 2023-09-10 18:15

如何解决《在多列上使用SparkML的OneHotEncoder》经验，为你挑选了1个好方法。

我已经能够创建一个允许我一次索引多个字符串列的管道,但是我对它们进行了编码,因为与索引不同,编码器不是估算器所以我根本不会根据OneHotEncoder示例调用文档.

import org.apache.spark.ml.feature.{StringIndexer, VectorAssembler, 

OneHotEncoder}
import org.apache.spark.ml.Pipeline

val data = sqlContext.read.parquet("s3n://map2-test/forecaster/intermediate_data")

val df = data.select("win","bid_price","domain","size", "form_factor").na.drop()


//indexing columns
val stringColumns = Array("domain","size", "form_factor")
val index_transformers: Array[org.apache.spark.ml.PipelineStage] = stringColumns.map(
  cname => new StringIndexer()
    .setInputCol(cname)
    .setOutputCol(s"${cname}_index")
)

// Add the rest of your pipeline like VectorAssembler and algorithm
val index_pipeline = new Pipeline().setStages(index_transformers)
val index_model = index_pipeline.fit(df)
val df_indexed = index_model.transform(df)


//encoding columns
val indexColumns  = df_indexed.columns.filter(x => x contains "index")
val one_hot_encoders: Array[org.apache.spark.ml.PipelineStage] = indexColumns.map(
    cname => new OneHotEncoder()
     .setInputCol(cname)
     .setOutputCol(s"${cname}_vec")
)



val one_hot_pipeline = new Pipeline().setStages(one_hot_encoders)
val df_encoded = one_hot_pipeline.transform(df_indexed)

OneHotEncoder对象没有fit方法,因此将它放在与索引器不同的管道中也不起作用 - 当我在管道上调用fit时会抛出错误.我也不能调用我用管道阶段数组生成的管道上的变换one_hot_encoders.

我没有找到一个很好的解决方案,使用OneHotEncoder而不单独创建和调用转换为我想要编码的所有列转换自身

1> zero323..：

Spark> = 2.3

Spark 2.3引入了新类OneHotEncoderEstimator,OneHotEncoder即使在外部使用也需要进行拟合OneHotEncoderEstimator,并且同时在多个列上运行.

import org.apache.spark.ml.feature.{OneHotEncoder, OneHotEncoderModel}

val encoder = new OneHotEncoder()
  .setInputCols(indexColumns)
  .setOutputCols(indexColumns map (name => s"${name}_vec"))

Spark <2.3

即使您使用的变压器不需要拟合,您也必须使用OneHotEncoderModel方法来创建Pipeline可用于转换数据的方法.

import org.apache.spark.ml.feature.{OneHotEncoderEstimator, OneHotEncoderModel}

val encoder = new OneHotEncoderEstimator()
  .setInputCols(indexColumns)
  .setOutputCols(indexColumns map (name => s"${name}_vec"))


encoder.fit(df_indexed).transform(df_indexed)

另外,您可以将索引和编码组合成一个fit:

one_hot_pipeline.fit(df_indexed).transform(df_indexed)

编辑:

您看到错误表示您的某列包含空PipelineModel.它被索引器接受但不能用于编码.根据您的要求,您可以删除它们或使用虚拟标签.不幸的是,Pipeline直到SPARK-11569)才能解决.

推荐阅读

程序员
初学者安装模块最简单的方法是什么？

如何解决《初学者安装模块最简单的方法是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
刚刚通过NuGet更新了ImageResizer,无法运行app,因为它无法找到BundleAttribute

如何解决《刚刚通过NuGet更新了ImageResizer,无法运行app,因为它无法找到BundleAttribute》经验，为你挑选了1个好方法。 ... [详细]
程序员
python将列表的所有元素向右移动一个

如何解决《python将列表的所有元素向右移动一个》经验，为你挑选了2个好方法。 ... [详细]
程序员
C++,无法打开源文件"ifstream"Visual Studio

如何解决《C++,无法打开源文件"ifstream"VisualStudio》经验，为你挑选了1个好方法。 ... [详细]
程序员
在C＃单元测试中使用64位本机.DLL

如何解决《在C＃单元测试中使用64位本机.DLL》经验，为你挑选了1个好方法。 ... [详细]
程序员
清除std :: vector数组的最佳方法是什么？

如何解决《清除std::vector数组的最佳方法是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java Nashorn脚本模式：如何写入文件

如何解决《JavaNashorn脚本模式：如何写入文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从大师分支以来git diff所有变化？

如何解决《如何从大师分支以来gitdiff所有变化？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何在Swift中以编程方式创建"Back"UIBarButton项？

如何解决《如何在Swift中以编程方式创建"Back"UIBarButton项？》经验，为你挑选了2个好方法。 ... [详细]
程序员
python pandas-应用具有两个列参数的函数

如何解决《pythonpandas-应用具有两个列参数的函数》经验，为你挑选了2个好方法。 ... [详细]
程序员
位置:固定,底部:0似乎不适用于离子应用程序

如何解决《位置:固定,底部:0似乎不适用于离子应用程序》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何告诉scikit-learn给出F-1 /精度/召回分数的标签（二进制分类）？

如何解决《如何告诉scikit-learn给出F-1/精度/召回分数的标签（二进制分类）？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Azure共享计划上的SSL？

如何解决《Azure共享计划上的SSL？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何防止Onchange在页面加载时触发

如何解决《如何防止Onchange在页面加载时触发》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何获取状态栏背景颜色以显示colorPrimaryDark

如何解决《如何获取状态栏背景颜色以显示colorPrimaryDark》经验，为你挑选了1个好方法。 ... [详细]
程序员
添加新源数据时,ViewPagerAndroid返回空视图

如何解决《添加新源数据时,ViewPagerAndroid返回空视图》经验，为你挑选了0个好方法。 ... [详细]
程序员
将8个字符从内存加载到__m256变量中作为压缩单精度浮点数

如何解决《将8个字符从内存加载到__m256变量中作为压缩单精度浮点数》经验，为你挑选了1个好方法。 ... [详细]
程序员
Div不知道屏幕大小调整

如何解决《Div不知道屏幕大小调整》经验，为你挑选了0个好方法。 ... [详细]
程序员
不能欺骗sudo; 报告说有效的uid是非零的

如何解决《不能欺骗sudo;报告说有效的uid是非零的》经验，为你挑选了1个好方法。 ... [详细]
程序员
命令行"java -version"会将结果发送到stdOut或stdErr吗？

如何解决《命令行"java-version"会将结果发送到stdOut或stdErr吗？》经验，为你挑选了0个好方法。 ... [详细]

黄晓敏3023

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章