错误恢复
如果文件元数据损坏,文件将丢失。如果列元数据损坏,该列块将丢失(但其他行组中该列的列块是正常的)。如果页头损坏,该块中的剩余页将丢失。如果页内的数据损坏,该页将丢失。使用较小的行组,文件对损坏的恢复能力会更强。
潜在扩展:使用较小的行组,最大的问题是将文件元数据放在末尾。如果在写入文件元数据时发生错误,所有写入的数据将无法读取。这可以通过每 N 个行组写入一次文件元数据来解决。每个文件元数据将是累积的,包括到目前为止写入的所有行组。将此与 rc 或 avro 文件使用同步标记的策略相结合,读取器可以恢复部分写入的文件。