我在我的hadoop集群上有一个镶木地板文件,我想捕获列名称及其数据类型,并将其写在textfile.how上,以使用pyspark获取镶木地板文件的列名和数据类型.
您只需阅读该文件并使用schema访问个人fields:
schema
fields
sqlContext.read.parquet(path_to_parquet_file).schema.fields