我有一个pyspark数据帧
DOCTOR | PATIENT JOHN | SAM JOHN | PETER JOHN | ROBIN BEN | ROSE BEN | GRAY
并需要按行连接患者姓名,以便我得到如下输出:
DOCTOR | PATIENT JOHN | SAM, PETER, ROBIN BEN | ROSE, GRAY
有人可以帮助我在pyspark中创建这个数据帧吗?
提前致谢.
我能想到的最简单的方法是使用collect_list
import pyspark.sql.functions as f df.groupby("col1").agg(f.concat_ws(", ", f.collect_list(df.col2)))