Apache Spark按用户ID排序分区,并将每个分区写入CSV

作者：mobiledu2402851377 | 2023-09-06 16:43

如何解决《ApacheSpark按用户ID排序分区,并将每个分区写入CSV》经验，为你挑选了0个好方法。

我有一个使用Spark似乎相对简单的用例,但似乎无法找到一个确定的方法来做到这一点.

我有一个数据集,其中包含各种用户的时间序列数据.我要做的就是:

按用户标识对此数据集进行分区

对每个用户的时间序列数据进行排序,然后应该将其包含在各个分区中,

将每个分区写入单个CSV文件.最后,我希望每个用户ID最终得到1个CSV文件.

我尝试使用以下代码片段,但最终得到了令人惊讶的结果.我最终得到每个用户ID 1个csv文件,一些用户的时间序列数据最终得到排序,但很多其他用户都没有排序.

# repr(ds) = DataFrame[userId: string, timestamp: string, c1: float, c2: float, c3: float, ...]
ds = load_dataset(user_dataset_path)
ds.repartition("userId")
    .sortWithinPartitions("timestamp")
    .write
    .partitionBy("userId")
    .option("header", "true")
    .csv(output_path)

我不清楚为什么会发生这种情况,我不完全确定如何做到这一点.我也不确定这是否可能是Spark中的一个错误.

我正在使用Spark 2.0.2和Python 2.7.12.任何建议将非常感谢!

推荐阅读

程序员
在一个充满零的矩阵中的一个 - R.

如何解决《在一个充满零的矩阵中的一个-R.》经验，为你挑选了1个好方法。 ... [详细]
程序员
SWIFT iOS中的崩溃报告

如何解决《SWIFTiOS中的崩溃报告》经验，为你挑选了0个好方法。 ... [详细]
程序员
Scala Try的toOption方法返回Some(null)

如何解决《ScalaTry的toOption方法返回Some(null)》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用Scanner类中的hasNext()？

如何解决《如何使用Scanner类中的hasNext()？》经验，为你挑选了1个好方法。 ... [详细]
程序员
传递基础参考字段的生命周期？

如何解决《传递基础参考字段的生命周期？》经验，为你挑选了0个好方法。 ... [详细]
程序员
d3.js linkStrength对力图中linkDistance的影响

如何解决《d3.jslinkStrength对力图中linkDistance的影响》经验，为你挑选了1个好方法。 ... [详细]
程序员
调用Delphi DLL的意外线程行为

如何解决《调用DelphiDLL的意外线程行为》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用ReverseLayout recyclerview将项目添加到Endless Scroll RecyclerView

如何解决《使用ReverseLayoutrecyclerview将项目添加到EndlessScrollRecyclerView》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用BinaryWriter时,为什么二进制文件的大小不会减少

如何解决《使用BinaryWriter时,为什么二进制文件的大小不会减少》经验，为你挑选了1个好方法。 ... [详细]
程序员
鼠标悬停上的边界半径在哪里

如何解决《鼠标悬停上的边界半径在哪里》经验，为你挑选了0个好方法。 ... [详细]
程序员
ColdFusion 10 Developer,Tomcat 7.0.64和多个网站

如何解决《ColdFusion10Developer,Tomcat7.0.64和多个网站》经验，为你挑选了0个好方法。 ... [详细]
程序员
Django Admin不保存预先填充的内联字段,这些字段保留在初始状态

如何解决《DjangoAdmin不保存预先填充的内联字段,这些字段保留在初始状态》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何根据Angular js中的两个自定义过滤器过滤数据

如何解决《如何根据Angularjs中的两个自定义过滤器过滤数据》经验，为你挑选了0个好方法。 ... [详细]
程序员
在PyCharm中运行或调试时增加输出缓冲区

如何解决《在PyCharm中运行或调试时增加输出缓冲区》经验，为你挑选了3个好方法。 ... [详细]
程序员
有条件地阻止方法覆盖

如何解决《有条件地阻止方法覆盖》经验，为你挑选了1个好方法。 ... [详细]
程序员
qDebug()不会打印任何内容

如何解决《qDebug()不会打印任何内容》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android 6.0.1无法以编程方式启用wifi热点

如何解决《Android6.0.1无法以编程方式启用wifi热点》经验，为你挑选了0个好方法。 ... [详细]
程序员
将null值赋给list中的属性

如何解决《将null值赋给list中的属性》经验，为你挑选了1个好方法。 ... [详细]
程序员
电报,获取现有贴纸的file_id

如何解决《电报,获取现有贴纸的file_id》经验，为你挑选了1个好方法。 ... [详细]
程序员
不遵守输入字段的Maxlength属性

如何解决《不遵守输入字段的Maxlength属性》经验，为你挑选了1个好方法。 ... [详细]

mobiledu2402851377

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章