当前位置:  开发笔记 > 后端 > 正文

如何将500GB的SQL表转换为Apache Parquet?

如何解决《如何将500GB的SQL表转换为ApacheParquet?》经验,为你挑选了1个好方法。

也许这有很好的文档,但我很困惑如何做到这一点(有很多Apache工具).

当我创建一个SQL表时,我使用以下命令创建表:

CREATE TABLE table_name(
   column1 datatype,
   column2 datatype,
   column3 datatype,
   .....
   columnN datatype,
   PRIMARY KEY( one or more columns )
);

如何将这个存在的表转换成Parquet?这个文件写入磁盘?如果原始数据是几GB,那么必须等待多长时间?

我可以将原始原始数据格式化为Parquet格式吗?



1> 小智..:

Apache Spark可用于执行此操作:

1.load your table from mysql via jdbc
2.save it as a parquet file

例:

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
df = spark.read.jdbc("YOUR_MYSQL_JDBC_CONN_STRING",  "YOUR_TABLE",properties={"user": "YOUR_USER", "password": "YOUR_PASSWORD"})
df.write.parquet("YOUR_HDFS_FILE")

推荐阅读
手机用户2402851335
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有