元数据

有两种类型的元数据:文件元数据和页头元数据。

所有 thrift 结构都使用 TCompactProtocol 进行序列化。这些结构的完整定义在 Parquet 的 Thrift 定义中给出。

文件元数据

在下图中,文件元数据由 FileMetaData 结构描述。此文件元数据提供了在导航 Parquet 文件时有用的偏移量和大小信息。

Parquet 元数据格式

页头

页头元数据(图中的 PageHeader 及其子结构)与页数据内联存储,用于数据的读取和解码。

Parquet PageHeader 格式