大数据中常见的数据存储格式和压缩方式

9 次阅读 预计阅读时间: 2 分钟


n

文件存储格式:

nnnn
    n
  1. 文本文件格式(TextFile):简单易用,通用性强,但不具备高效的压缩和查询性能。
  2. nnnn
  3. 序列文件格式(SequenceFile):适合用于复杂数据结构的持久化,但不提供高级压缩。
  4. nnnn
  5. 列式存储文件格式(如RCFile、ORCFile、Parquet):提供了更好的压缩比和查询性能,适合于分析型工作负载,Parquet在数据仓库和数据湖中具有广泛应用。
  6. nnnn
  7. Avro:基于JSON的数据序列化格式,适合用于大数据存储和交换,支持动态模式演化。
  8. nnnn
  9. JSON文件格式:以JSON格式存储的文件,适合存储半结构化数据,易于人类阅读和理解。
  10. nnnn
  11. Delta Lake:具有事务性、版本控制和可伸缩性等特性,适用于数据湖中的大规模数据存储。
  12. n
nnnn

压缩方式:

nnnn
    n
  1. Gzip:提供较高的压缩比,但对CPU的消耗较大。
  2. nnnn
  3. Snappy:提供快速的压缩/解压缩速度,适合对性能有要求的场景。
  4. nnnn
  5. LZO:同样提供快速的压缩/解压缩速度,常用于Hadoop集群中的数据压缩。
  6. nnnn
  7. Bzip2:针对文本数据具有高压缩比,但相对较慢。
  8. nnnn
  9. Deflate:在ZIP文件格式中使用,提供较高的压缩比。
  10. nnnn
  11. LZ4:快速压缩算法,适合对速度和资源消耗有要求的场景。
  12. nnnn
  13. Zstandard (Zstd):提供高压缩比和快速压缩/解压缩速度,适用于各种场景。
  14. n
n
最后更新于 2024-03-08