文件存储格式:
nnnn- n
- 文本文件格式(TextFile):简单易用,通用性强,但不具备高效的压缩和查询性能。 nnnn
- 序列文件格式(SequenceFile):适合用于复杂数据结构的持久化,但不提供高级压缩。 nnnn
- 列式存储文件格式(如RCFile、ORCFile、Parquet):提供了更好的压缩比和查询性能,适合于分析型工作负载,Parquet在数据仓库和数据湖中具有广泛应用。 nnnn
- Avro:基于JSON的数据序列化格式,适合用于大数据存储和交换,支持动态模式演化。 nnnn
- JSON文件格式:以JSON格式存储的文件,适合存储半结构化数据,易于人类阅读和理解。 nnnn
- Delta Lake:具有事务性、版本控制和可伸缩性等特性,适用于数据湖中的大规模数据存储。 n
压缩方式:
nnnn- n
- Gzip:提供较高的压缩比,但对CPU的消耗较大。 nnnn
- Snappy:提供快速的压缩/解压缩速度,适合对性能有要求的场景。 nnnn
- LZO:同样提供快速的压缩/解压缩速度,常用于Hadoop集群中的数据压缩。 nnnn
- Bzip2:针对文本数据具有高压缩比,但相对较慢。 nnnn
- Deflate:在ZIP文件格式中使用,提供较高的压缩比。 nnnn
- LZ4:快速压缩算法,适合对速度和资源消耗有要求的场景。 nnnn
- Zstandard (Zstd):提供高压缩比和快速压缩/解压缩速度,适用于各种场景。 n
Comments NOTHING