11赞

如何使用Java将一行数组平面映射到Apache spark中的多行？

作者：贴进你的心聆听你的世界 | 2023-09-08 13:52

如何解决《如何使用Java将一行数组平面映射到Apachespark中的多行？》经验，为你挑选了1个好方法。

我有一个json数据文件,其中包含一个属性,它是"tags"的字符串数组.Apache Spark DataFrame架构如下所示:

root
 |-- acceptedAnswerId: long (nullable = true)
 |-- answerCount: long (nullable = true)
 |-- body: string (nullable = true)
 |-- score: long (nullable = true)
 |-- tags: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- title: string (nullable = true)
 |-- viewCount: long (nullable = true)

我想在Java中将每一行分成几行.我可以使用Scala找到类似的答案,但无法在Java中转换解决方案.有什么建议吗？

JSON中的"tags"属性如下所示:

"tags":["c#",".net","compression","decompression"]

ErhWen Kuo.. 6

为了使解决方案更具可视性,示例json数据如下所示:

{"id":4,"score":358,"viewCount":24247,"answerCount":13,"commentCount":1,"favoriteCount":28,"tags":["c#","winforms","type-conversion","opacity"]}

下面是将json数据作为"DataFrame"对象读取的Java代码段:

JavaSparkContext sc = new JavaSparkContext(conf);
SQLContext sqlContext = new SQLContext(sc);

String jsonData = "{\"id\":4,\"score\":358,\"viewCount\":24247,\"tags\":[\"c#\",\"winforms\",\"type-conversion\",\"opacity\"]}";    

List dataSet = Arrays.asList(jsonData);

JavaRDD distData = sc.parallelize(dataSet);

DataFrame stackoverflow_Posts = sqlContext.read().json(distData);

stackoverflow_Posts.printSchema(); //let's print out the DataFrame schema (Output#1)

stackoverflow_Posts.show(); //let's show the DataFrame content (Ouput#2)

架构:输出#1如下所示:

root
 |-- id: long (nullable = true)
 |-- score: long (nullable = true)
 |-- tags: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- viewCount: long (nullable = true)

数据:输出#2如下所示:

+---+-----+--------------------+---------+
| id|score|                tags|viewCount|
+---+-----+--------------------+---------+
|  4|  358|[c#, winforms, ty...|    24247|
+---+-----+--------------------+---------+

基于zero323的信息,我继续处理:

DataFrame expanded = stackoverflow_Posts.withColumn("tag", org.apache.spark.sql.functions.explode(stackoverflow_Posts.col("tags")));

expanded.printSchema(); //let's print out the DataFrame schema again (Output#3)

expanded.show(); //let's show the DataFrame content (Output#4)

架构:输出#3如下所示:

root
 |-- id: long (nullable = true)
 |-- score: long (nullable = true)
 |-- tags: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- viewCount: long (nullable = true)
 |-- tag: string (nullable = true)

爆炸后的数据:输出#4

+---+-----+--------------------+---------+---------------+
| id|score|                tags|viewCount|            tag|
+---+-----+--------------------+---------+---------------+
|  4|  358|[c#, winforms, ty...|    24247|             c#|
|  4|  358|[c#, winforms, ty...|    24247|       winforms|
|  4|  358|[c#, winforms, ty...|    24247|type-conversion|
|  4|  358|[c#, winforms, ty...|    24247|        opacity|
+---+-----+--------------------+---------+---------------+

结果看起来非常类似于使用SQL连接两个表.

1> ErhWen Kuo..：

为了使解决方案更具可视性,示例json数据如下所示:

{"id":4,"score":358,"viewCount":24247,"answerCount":13,"commentCount":1,"favoriteCount":28,"tags":["c#","winforms","type-conversion","opacity"]}

下面是将json数据作为"DataFrame"对象读取的Java代码段:

JavaSparkContext sc = new JavaSparkContext(conf);
SQLContext sqlContext = new SQLContext(sc);

String jsonData = "{\"id\":4,\"score\":358,\"viewCount\":24247,\"tags\":[\"c#\",\"winforms\",\"type-conversion\",\"opacity\"]}";    

List dataSet = Arrays.asList(jsonData);

JavaRDD distData = sc.parallelize(dataSet);

DataFrame stackoverflow_Posts = sqlContext.read().json(distData);

stackoverflow_Posts.printSchema(); //let's print out the DataFrame schema (Output#1)

stackoverflow_Posts.show(); //let's show the DataFrame content (Ouput#2)

架构:输出#1如下所示:

root
 |-- id: long (nullable = true)
 |-- score: long (nullable = true)
 |-- tags: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- viewCount: long (nullable = true)

数据:输出#2如下所示:

+---+-----+--------------------+---------+
| id|score|                tags|viewCount|
+---+-----+--------------------+---------+
|  4|  358|[c#, winforms, ty...|    24247|
+---+-----+--------------------+---------+

基于zero323的信息,我继续处理:

DataFrame expanded = stackoverflow_Posts.withColumn("tag", org.apache.spark.sql.functions.explode(stackoverflow_Posts.col("tags")));

expanded.printSchema(); //let's print out the DataFrame schema again (Output#3)

expanded.show(); //let's show the DataFrame content (Output#4)

架构:输出#3如下所示:

root
 |-- id: long (nullable = true)
 |-- score: long (nullable = true)
 |-- tags: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- viewCount: long (nullable = true)
 |-- tag: string (nullable = true)

爆炸后的数据:输出#4

+---+-----+--------------------+---------+---------------+
| id|score|                tags|viewCount|            tag|
+---+-----+--------------------+---------+---------------+
|  4|  358|[c#, winforms, ty...|    24247|             c#|
|  4|  358|[c#, winforms, ty...|    24247|       winforms|
|  4|  358|[c#, winforms, ty...|    24247|type-conversion|
|  4|  358|[c#, winforms, ty...|    24247|        opacity|
+---+-----+--------------------+---------+---------------+

结果看起来非常类似于使用SQL连接两个表.

推荐阅读

程序员
SQL错误 - 关键字'IS'附近的语法错误 - SQL中的数据库名称问题？

如何解决《SQL错误-关键字'IS'附近的语法错误-SQL中的数据库名称问题？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将(1:n)[boolean]分割成连续的序列

如何解决《将(1:n)[boolean]分割成连续的序列》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用guid和文件扩展名上传ASP.NET WebApi文件

如何解决《使用guid和文件扩展名上传ASP.NETWebApi文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
用一个月而不是一年创建大熊猫时间序列

如何解决《用一个月而不是一年创建大熊猫时间序列》经验，为你挑选了0个好方法。 ... [详细]
程序员
优雅的方式来跳过迭代中的元素

如何解决《优雅的方式来跳过迭代中的元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
是e =事件|| window.event; IE8兼容性可接受

如何解决《是e=事件||window.event;IE8兼容性可接受》经验，为你挑选了1个好方法。 ... [详细]
程序员
比较两个名单

如何解决《比较两个名单》经验，为你挑选了1个好方法。 ... [详细]
程序员
动画谷歌地图折线

如何解决《动画谷歌地图折线》经验，为你挑选了1个好方法。 ... [详细]
程序员
将变量传递给工厂angularjs

如何解决《将变量传递给工厂angularjs》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java unmarshilling JSON数据包含抽象类型

如何解决《JavaunmarshillingJSON数据包含抽象类型》经验，为你挑选了1个好方法。 ... [详细]
程序员
Capybara - 访问()不使用Firefox

如何解决《Capybara-访问()不使用Firefox》经验，为你挑选了0个好方法。 ... [详细]
程序员
PHP PDO:Charset = UTF8:在dsn字符串中指定了无效的关键字字符集

如何解决《PHPPDO:Charset=UTF8:在dsn字符串中指定了无效的关键字字符集》经验，为你挑选了1个好方法。 ... [详细]
程序员
ActiveRecord:使用where子句时不考虑毫秒数

如何解决《ActiveRecord:使用where子句时不考虑毫秒数》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何返回与给定字符串匹配的枚举值？

如何解决《如何返回与给定字符串匹配的枚举值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
这可以用CSS完成吗？

如何解决《这可以用CSS完成吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django South - 如何在Django应用程序上重置迁移历史记录并开始清理

如何解决《DjangoSouth-如何在Django应用程序上重置迁移历史记录并开始清理》经验，为你挑选了1个好方法。 ... [详细]
程序员
Clojure:减法中的舍入不一致

如何解决《Clojure:减法中的舍入不一致》经验，为你挑选了1个好方法。 ... [详细]
程序员
查询对象和规范模式之间的差异

如何解决《查询对象和规范模式之间的差异》经验，为你挑选了1个好方法。 ... [详细]
程序员
WebSocket可以动态切换其binaryType吗？

如何解决《WebSocket可以动态切换其binaryType吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
该行在c ++中意味着什么

如何解决《该行在c++中意味着什么》经验，为你挑选了2个好方法。 ... [详细]

贴进你的心聆听你的世界

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章