CRA5-Dataset
收藏Hugging Face2026-01-15 更新2026-01-16 收录
下载链接:
https://huggingface.co/datasets/taohan10200/CRA5-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
CRA5 ERA5数据集是ERA5再分析数据集的压缩版本,专为气候和天气研究设计。该数据集通过变分自编码器变换器(VAEformer)实现高效压缩,将原始的226 TB ERA5数据集压缩至0.7 TB,同时保持科学实用性。数据集包含1979年至2023年的每小时数据,支持时间序列预测和压缩任务。README还提供了安装指南、使用示例和数据集特性,包括其在训练天气预报模型中的应用以及在其他领域(如图像和视频压缩)的潜在用途。
创建时间:
2026-01-14
原始信息汇总
CRA5数据集概述
数据集基本信息
- 数据集名称:CRA5 ERA5 Dataset
- 数据集地址:https://huggingface.co/datasets/taohan10200/CRA5-Dataset
- 许可证:cdla-sharing-1.0
- 任务类别:时间序列预测、压缩
- 标签:气候、天气、era5、cra5
- 数据规模:1T<n<10T
数据集简介
CRA5是一个经过极端压缩的天气数据集,源自最流行的ERA5再分析数据集。该数据集通过VAEformer(一种变分自编码器变换器)对气候数据进行极端压缩,成功将226 TB的ERA5数据集压缩为0.7 TB的CRA5数据集,压缩比超过300倍。CRA5覆盖了1979年至2023年的每小时ERA5数据。
核心内容
- 压缩模型:提供定制的变分变换器(VAEformer)用于气候数据压缩。
- 数据集:CRA5数据集小于1 TiB,但包含与400+ TiB ERA5数据集相同的信息。
- 预训练模型:提供在气候/天气数据上预训练的自编码器,以支持潜在的天气研究。
数据集用途
- 训练数据驱动的数值天气预报模型:CRA5数据集可用于训练大型天气预报模型,如FengWu-GHR和Pangu-Weather,其训练效果与使用原始数据训练的模型精度相当。
- 作为自编码器-解码器:VAEformer基于自动编码器-解码器架构,可用于生成潜在表示,支持基于扩散或其他生成方法的预报研究。
- 扩展到其他领域:VAEformer是一个强大的压缩模型,可扩展到图像和视频压缩等其他领域。
数据变量与误差
CRA5包含总共268个变量,涵盖7个来自ERA5气压层档案的气压层变量和9个地表变量。具体变量包括位势、比湿、风场分量和温度等,每个变量在不同气压层上均有对应的通道和数值误差。详细的变量、通道和误差信息请参见数据集详情页面的表格。
获取与使用
- 数据集获取:CRA5数据集可通过OneDrive获取,链接为:https://hkustconnect-my.sharepoint.com/:f:/g/personal/thanad_connect_ust_hk/EjGupNV_IcZKre1PdN65dFUB2sBOHX3MCH4cycBtcSm2yA?e=GAqS1J
- API使用:提供压缩、解压缩、潜在表示、特征可视化和重建可视化等功能。
- 预训练模型使用:支持使用预训练模型进行压缩和解压缩操作。
相关资源
- 论文:相关研究论文发表于《Nature Portfolio Communications Earth & Environment》,标题为“Climate science data can be compressed efficiently by dual-stage extreme compression with a variational auto-encoder transformer”,链接为:https://www.nature.com/articles/s43247-025-02903-z
- 引用:使用该数据集时,请引用相关论文。
技术支持
- 安装要求:支持Python 3.8+和PyTorch 1.7+。
- 多GPU支持:目前处于实验阶段。
- 许可证:项目基于BSD 3-Clause Clear许可证。
- 贡献与反馈:欢迎通过GitHub问题报告错误、请求增强或提出问题。
搜集汇总
数据集介绍

构建方式
在气候科学领域,海量数据存储与处理一直是制约研究进展的关键瓶颈。CRA5数据集的构建采用了创新的VAEformer模型,这是一种基于变分自编码器与Transformer架构的极端压缩方法。该模型通过对ERA5再分析数据集进行高效编码,将原始226TB的数据压缩至不足1TB,实现了超过300倍的压缩比。这一过程不仅显著降低了数据存储需求,还通过精心设计的量化与熵编码策略,确保了压缩后数据在科学分析中的可用性。
特点
CRA5数据集作为ERA5数据的压缩版本,其核心特点在于极高的压缩效率与保留的科学完整性。该数据集涵盖了1979年至2023年的每小时气象数据,包含268个气象变量,涉及7个气压层变量与9个地表变量。尽管数据体积大幅缩减,但经过验证,基于CRA5训练的全球天气预报模型能够达到与原始数据相当的预测精度。这一特性使得研究人员能够在有限存储资源下,依然开展高质量的气候模拟与天气预测研究。
使用方法
为便于科研人员使用,CRA5提供了完整的API接口与预训练模型。用户可通过Hugging Face平台下载压缩后的二进制数据文件,并利用配套工具进行解压与可视化操作。数据集支持直接用于训练大规模数据驱动的天气预报模型,如FengWu-GHR或Pangu-Weather,同时也允许将VAEformer作为自动编码器提取潜在特征,以支持扩散模型等生成式预测方法的开发。安装过程通过Python环境配置完成,确保了跨平台的易用性。
背景与挑战
背景概述
CRA5数据集是2024年由Tao Han、Zhenghao Chen等研究人员提出的,旨在应对气候科学领域中海量数据存储与传输的严峻挑战。该数据集基于欧洲中期天气预报中心(ECMWF)发布的ERA5再分析数据,通过创新的VAEformer(变分自编码器变换器)模型,将原始规模超过226 TB的ERA5数据压缩至不足1 TB,实现了超过300倍的压缩比。CRA5覆盖了1979年至2023年的每小时全球气候观测数据,包含268个气象变量,其核心研究问题聚焦于如何在极端压缩下保持数据的科学效用,从而降低人工智能驱动的气象与气候研究的门槛,推动便携式全球天气预测模型的发展。
当前挑战
CRA5数据集致力于解决气候数据存储与高效利用的领域挑战,其核心在于如何在极端压缩比下维持数据的科学保真度,确保压缩后的数据仍能支持高精度数值天气预报模型的训练。构建过程中的挑战包括设计低复杂度的变换器架构以处理高维时空气象数据,同时通过变分推断优化压缩效率;此外,需在压缩过程中平衡信息损失与计算资源,验证压缩数据在气象变量(如位势、比湿、风场、温度)上的误差控制在可接受范围内,以保障下游研究的可靠性。
常用场景
经典使用场景
在气候科学与气象研究领域,海量数据的存储与处理一直是制约人工智能模型发展的关键瓶颈。CRA5数据集通过变分自编码器变换器(VAEformer)实现了对ERA5再分析数据的极致压缩,将原始226TB的数据缩减至0.7TB,压缩比超过300倍。这一突破性成果使得研究人员能够在有限的存储资源下,高效地训练大规模数据驱动的数值天气预报模型,如FengWu-GHR和Pangu-Weather,从而显著降低了高分辨率全球气候模拟的计算门槛。
解决学术问题
CRA5数据集有效解决了气候数据科学中存储成本高昂与数据传输效率低下的核心难题。传统ERA5数据集体积庞大,导致许多研究机构无法完整获取或本地化处理,限制了AI模型在气象预测中的广泛应用。该数据集通过保留关键气象变量的科学效用,在极端压缩的同时确保了数据重建的精度,使得基于压缩数据的预报模型能够达到与原始数据相当的预测准确性,为气候建模与天气预测研究提供了高效且可靠的数据基础。
衍生相关工作
围绕CRA5数据集,一系列经典研究工作得以衍生并拓展。其核心压缩模型VAEformer不仅应用于气候数据,还为图像与视频压缩领域提供了新的技术思路。基于该数据集训练的预报模型,如FengWu-GHR,已在千米尺度中程全球天气预报中展现出卓越性能。此外,数据集提供的预训练自编码器结构,为扩散生成式预测方法等下游研究提供了潜在潜变量表示,进一步推动了生成式人工智能在气象科学中的创新应用。
以上内容由遇见数据集搜集并总结生成



