16赞

pyspark将列拆分为多个没有pandas的列

作者：吻过彩虹的脸_378 | 2023-09-09 18:08

如何解决《pyspark将列拆分为多个没有pandas的列》经验，为你挑选了1个好方法。

我的问题是如何将列拆分为多列.我不知道为什么df.toPandas()不起作用.

例如,我想将'df_test'更改为'df_test2'.我看到很多使用pandas模块的例子.还有另外一种方法吗？先感谢您.

df_test = sqlContext.createDataFrame([
(1, '14-Jul-15'),
(2, '14-Jun-15'),
(3, '11-Oct-15'),
], ('id', 'date'))

df_test2

id     day    month    year
1       14     Jul      15
2       14     Jun      15
1       11     Oct      15

zero323.. 10

Spark> = 2.2

您可以跳过unix_timestamp并投射和使用to_date或to_timestamp:

from pyspark.sql.functions import to_date, to_timestamp

df_test.withColumn("date", to_date("date", "dd-MMM-yy")).show()
## +---+----------+
## | id|      date|
## +---+----------+
## |  1|2015-07-14|
## |  2|2015-06-14|
## |  3|2015-10-11|
## +---+----------+


df_test.withColumn("date", to_timestamp("date", "dd-MMM-yy")).show()
## +---+-------------------+
## | id|               date|
## +---+-------------------+
## |  1|2015-07-14 00:00:00|
## |  2|2015-06-14 00:00:00|
## |  3|2015-10-11 00:00:00|
## +---+-------------------+

然后应用下面显示的其他日期时间函数.

Spark <2.2

无法在单个访问中派生多个顶级列.您可以将结构或集合类型与UDF一起使用,如下所示:

from pyspark.sql.types import StringType, StructType, StructField
from pyspark.sql import Row
from pyspark.sql.functions import udf, col

schema = StructType([
  StructField("day", StringType(), True),
  StructField("month", StringType(), True),
  StructField("year", StringType(), True)
])

def split_date_(s):
    try:
        d, m, y = s.split("-")
        return d, m, y
    except:
        return None

split_date = udf(split_date_, schema)

transformed = df_test.withColumn("date", split_date(col("date")))
transformed.printSchema()

## root
##  |-- id: long (nullable = true)
##  |-- date: struct (nullable = true)
##  |    |-- day: string (nullable = true)
##  |    |-- month: string (nullable = true)
##  |    |-- year: string (nullable = true)

但它不仅在PySpark中相当冗长,而且价格昂贵.

对于基于日期的转换,您只需使用内置函数:

from pyspark.sql.functions import unix_timestamp, dayofmonth, year, date_format

transformed = (df_test
    .withColumn("ts",
        unix_timestamp(col("date"), "dd-MMM-yy").cast("timestamp"))
    .withColumn("day", dayofmonth(col("ts")).cast("string"))
    .withColumn("month", date_format(col("ts"), "MMM"))
    .withColumn("year", year(col("ts")).cast("string"))
    .drop("ts"))

同样,您可以使用regexp_extract拆分日期字符串.

另请参见从Spark DataFrame中的单个列派生多个列

注意:

如果您使用未针对SPARK-11724打补丁的版本,则需要在unix_timestamp(...)之前和之后进行修正cast("timestamp").

1> zero323..：

Spark> = 2.2

您可以跳过unix_timestamp并投射和使用to_date或to_timestamp:

from pyspark.sql.functions import to_date, to_timestamp

df_test.withColumn("date", to_date("date", "dd-MMM-yy")).show()
## +---+----------+
## | id|      date|
## +---+----------+
## |  1|2015-07-14|
## |  2|2015-06-14|
## |  3|2015-10-11|
## +---+----------+


df_test.withColumn("date", to_timestamp("date", "dd-MMM-yy")).show()
## +---+-------------------+
## | id|               date|
## +---+-------------------+
## |  1|2015-07-14 00:00:00|
## |  2|2015-06-14 00:00:00|
## |  3|2015-10-11 00:00:00|
## +---+-------------------+

然后应用下面显示的其他日期时间函数.

Spark <2.2

无法在单个访问中派生多个顶级列.您可以将结构或集合类型与UDF一起使用,如下所示:

from pyspark.sql.types import StringType, StructType, StructField
from pyspark.sql import Row
from pyspark.sql.functions import udf, col

schema = StructType([
  StructField("day", StringType(), True),
  StructField("month", StringType(), True),
  StructField("year", StringType(), True)
])

def split_date_(s):
    try:
        d, m, y = s.split("-")
        return d, m, y
    except:
        return None

split_date = udf(split_date_, schema)

transformed = df_test.withColumn("date", split_date(col("date")))
transformed.printSchema()

## root
##  |-- id: long (nullable = true)
##  |-- date: struct (nullable = true)
##  |    |-- day: string (nullable = true)
##  |    |-- month: string (nullable = true)
##  |    |-- year: string (nullable = true)

但它不仅在PySpark中相当冗长,而且价格昂贵.

对于基于日期的转换,您只需使用内置函数:

from pyspark.sql.functions import unix_timestamp, dayofmonth, year, date_format

transformed = (df_test
    .withColumn("ts",
        unix_timestamp(col("date"), "dd-MMM-yy").cast("timestamp"))
    .withColumn("day", dayofmonth(col("ts")).cast("string"))
    .withColumn("month", date_format(col("ts"), "MMM"))
    .withColumn("year", year(col("ts")).cast("string"))
    .drop("ts"))

同样,您可以使用regexp_extract拆分日期字符串.

另请参见从Spark DataFrame中的单个列派生多个列

注意:

如果您使用未针对SPARK-11724打补丁的版本,则需要在unix_timestamp(...)之前和之后进行修正cast("timestamp").

推荐阅读

程序员
使用协议以typealias作为属性

如何解决《使用协议以typealias作为属性》经验，为你挑选了0个好方法。 ... [详细]
程序员
JavaScript意外的输入结束

如何解决《JavaScript意外的输入结束》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何让sqlite3在Tcl中执行regexp

如何解决《如何让sqlite3在Tcl中执行regexp》经验，为你挑选了1个好方法。 ... [详细]
程序员
有没有官方方法来获取模型的管理选项？

如何解决《有没有官方方法来获取模型的管理选项？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在混合Java/Kotlin项目中使用Dagger 2的Maven配置

如何解决《在混合Java/Kotlin项目中使用Dagger2的Maven配置》经验，为你挑选了0个好方法。 ... [详细]
程序员
Swift - 无法转换'UITabBarController'类型的值

如何解决《Swift-无法转换'UITabBarController'类型的值》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么以下C++程序打印'0'而不是'6'？

如何解决《为什么以下C++程序打印'0'而不是'6'？》经验，为你挑选了1个好方法。 ... [详细]
程序员
AWS API Gateway:由于配置错误导致执行失败:输出映射不匹配且未配置默认输出映射

如何解决《AWSAPIGateway:由于配置错误导致执行失败:输出映射不匹配且未配置默认输出映射》经验，为你挑选了2个好方法。 ... [详细]
程序员
Swift:CFArray:将值作为UTF字符串获取

如何解决《Swift:CFArray:将值作为UTF字符串获取》经验，为你挑选了1个好方法。 ... [详细]
程序员
Heroku:运行npm install和gulp build for Django app

如何解决《Heroku:运行npminstall和gulpbuildforDjangoapp》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Browserify在ES6中使用Bootstrap和jQuery包时出错

如何解决《使用Browserify在ES6中使用Bootstrap和jQuery包时出错》经验，为你挑选了1个好方法。 ... [详细]
程序员
Emgu CV 3 findContours和Vec4i类型的层级参数是否等效？

如何解决《EmguCV3findContours和Vec4i类型的层级参数是否等效？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何将constexpr作为模板参数传递？

如何解决《如何将constexpr作为模板参数传递？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android PC上的Android工作室更快吗？

如何解决《AndroidPC上的Android工作室更快吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在class属性中引用类名的最佳方法是什么？

如何解决《在class属性中引用类名的最佳方法是什么？》经验，为你挑选了0个好方法。 ... [详细]
程序员
将Android Studio更新为1.5后出现Gradle错误

如何解决《将AndroidStudio更新为1.5后出现Gradle错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
实际上是否可以从构造微积分中删除"Pi"？

如何解决《实际上是否可以从构造微积分中删除"Pi"？》经验，为你挑选了1个好方法。 ... [详细]
程序员
电话号码正则表达式不适用于swift

如何解决《电话号码正则表达式不适用于swift》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何使docker-compose从远程git存储库构建映像？

如何解决《如何使docker-compose从远程git存储库构建映像？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Swift无法找到并读取属性列表(.plist)文件

如何解决《Swift无法找到并读取属性列表(.plist)文件》经验，为你挑选了1个好方法。 ... [详细]

吻过彩虹的脸_378

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章