14赞

Pyspark读取parquet数据过程解析

作者：无名有名我无名_593 | 2022-01-05 18:45

这篇文章主要介绍了pyspark读取parquet数据过程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

parquet数据：列式存储结构，由Twitter和Cloudera合作开发，相比于行式存储，其特点是：

可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量；压缩编码可以降低磁盘存储空间，使用更高效的压缩编码节约存储空间；只读取需要的列，支持向量运算，能够获取更好的扫描性能。

那么我们怎么在pyspark中读取和使用parquet数据呢？我以local模式，linux下的pycharm执行作说明。

首先，导入库文件和配置环境：

import os
from pyspark import SparkContext, SparkConf
from pyspark.sql.session import SparkSession

os.environ["PYSPARK_PYTHON"]="/usr/bin/python3" #多个python版本时需要指定

conf = SparkConf().setAppName('test_parquet')
sc = SparkContext('local', 'test', conf=conf)
spark = SparkSession(sc)

然后，使用spark进行读取，得到DataFrame格式的数据：host:port 属于主机和端口号

parquetFile = r"hdfs://host:port/Felix_test/test_data.parquet"
df = spark.read.parquet(parquetFile)

而，DataFrame格式数据有一些方法可以使用，例如：

1.df.first() ：显示第一条数据，Row格式

print(df.first())

2.df.columns：列名

3.df.count()：数据量，数据条数

4.df.toPandas()：从spark的DataFrame格式数据转到Pandas数据结构

5.df.show()：直接显示表数据；其中df.show(n) 表示只显示前n行信息

6.type(df)：显数据示格式

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

推荐阅读

程序员
ITMS-90037提交应用商店时，Info.plist文件丢失或无法解析

如何解决《ITMS-90037提交应用商店时，Info.plist文件丢失或无法解析》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Clion中自动为.h文件生成函数头？

如何解决《如何在Clion中自动为.h文件生成函数头？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在try-catch块之外访问变量

如何解决《在try-catch块之外访问变量》经验，为你挑选了2个好方法。 ... [详细]
程序员
读取输入的值返回undefined

如何解决《读取输入的值返回undefined》经验，为你挑选了1个好方法。 ... [详细]
程序员
在XCode中的UI测试期间无法访问自定义视图

如何解决《在XCode中的UI测试期间无法访问自定义视图》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过CodePush或AppHub部署应用程序

如何解决《通过CodePush或AppHub部署应用程序》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法解码下载的字体,OTS解析错误:无效的版本标记+ rails 4

如何解决《无法解码下载的字体,OTS解析错误:无效的版本标记+rails4》经验，为你挑选了3个好方法。 ... [详细]
程序员
ES6作为angularjs或angular2的打字稿目标编译器选项

如何解决《ES6作为angularjs或angular2的打字稿目标编译器选项》经验，为你挑选了1个好方法。 ... [详细]
程序员
函数评估要求所有线程都运行-MVC

如何解决《函数评估要求所有线程都运行-MVC》经验，为你挑选了1个好方法。 ... [详细]
程序员
加速移动页面(AMP)中的SVG部分是否支持IMG标记？

如何解决《加速移动页面(AMP)中的SVG部分是否支持IMG标记？》经验，为你挑选了1个好方法。 ... [详细]
程序员
std :: move或std :: forward,参数为std :: unique_ptr <T> &&

如何解决《std::move或std::forward,参数为std::unique_ptr<T>&&》经验，为你挑选了1个好方法。 ... [详细]
程序员
铸造到'void'真的有什么作用？

如何解决《铸造到'void'真的有什么作用？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Retrofit 2 RxJava - Gson - "全局"反序列化,更改响应类型

如何解决《Retrofit2RxJava-Gson-"全局"反序列化,更改响应类型》经验，为你挑选了1个好方法。 ... [详细]
程序员
请求匹配多个操作,导致ASP.NET 5/MVC 6中具有不同参数的操作不明确

如何解决《请求匹配多个操作,导致ASP.NET5/MVC6中具有不同参数的操作不明确》经验，为你挑选了0个好方法。 ... [详细]
程序员
R googleVis BubbleChart,设置大小而不设置颜色

如何解决《RgoogleVisBubbleChart,设置大小而不设置颜色》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法提交App IOS

如何解决《无法提交AppIOS》经验，为你挑选了1个好方法。 ... [详细]
程序员
在摘要中显示EditTextPreference的值

如何解决《在摘要中显示EditTextPreference的值》经验，为你挑选了2个好方法。 ... [详细]
程序员
CSS word换行第二行文字

如何解决《CSSword换行第二行文字》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用MIBadgeButton-Swift为UIButtonitem添加徽章

如何解决《使用MIBadgeButton-Swift为UIButtonitem添加徽章》经验，为你挑选了1个好方法。 ... [详细]
程序员
在按复合类名称搜索时,BeautifulSoup返回空列表

如何解决《在按复合类名称搜索时,BeautifulSoup返回空列表》经验，为你挑选了0个好方法。 ... [详细]

无名有名我无名_593

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章