官方Spark文档在Dataset API中建议如下:
通过在编码器上调用静态方法来指定Java编码器.
Listdata = Arrays.asList("abc", "abc", "xyz"); Dataset ds = context.createDataset(data, Encoders.STRING());
编码器可以组成元组:
Encoder> encoder2 = Encoders.tuple(Encoders.INT(), Encoders.STRING()); List > data2 = Arrays.asList(new scala.Tuple2(1, "a"); Dataset > ds2 = context.createDataset(data2, encoder2);
或者由编码器编写的 Java Beans #bean:
Encoders.bean(MyClass.class);