OceanVerse
收藏Hugging Face2025-05-12 更新2025-05-13 收录
下载链接:
https://huggingface.co/datasets/jingwei-sjtu/OceanVerse
下载链接
链接失效反馈官方服务:
资源简介:
OceanVerse数据集是一个为了解决稀疏海洋观测数据重建问题而设计的综合性数据集。它包含了从1900年开始的近200万个实际剖面数据点和三组地球系统数值模拟数据。这个数据集是大规模的,满足MNAR条件,可以用于模型比较、泛化评估和科学重建架构的潜在提升。数据集基于CMIP6数值模拟集合构建,包括CESM2-omip1、CESM2-omip2和GFDL-ESM4模型数据,具有全球规模的空间范围和不同的时间分辨率。数据集分为训练集和验证集,采用随机、时间和空间三种划分方法。
创建时间:
2025-05-11
原始信息汇总
OceanVerse数据集概述
基本信息
- 许可证: CC-BY-NC-4.0
- 语言: 英语
- 数据规模: 100M < n < 1B
- 标签: 气候、海洋
- 任务类别: 时间序列预测、图机器学习
数据集描述
OceanVerse是一个综合性数据集,旨在解决稀疏海洋观测数据重建的挑战。它整合了自1900年以来的近200万条真实世界剖面数据和三组地球系统数值模拟数据。该数据集提供了一个新颖的大规模(∼100×节点 vs. 现有数据集)且满足MNAR(Missing Not at Random)条件的数据集,支持更有效的模型比较、泛化评估和科学重建架构的潜在进展。
数据集详情
模型信息
| 模型名称 | CESM2-OMIP1 | CESM2-OMIP2 | GFDL-ESM4 |
|---|---|---|---|
| 开发机构 | 美国国家大气研究中心 (NCAR) | 美国国家大气研究中心 (NCAR) | 地球物理流体动力学实验室 (GFDL) |
| 空间范围 | 全球 | 全球 | 全球 |
| 空间分辨率 | 1° × 1° | 1° × 1° | 1° × 1° |
| 时间范围 | 1948-2009 | 1958-2018 | 1920-2014 |
| 时间分辨率 | 年输出 | 年输出 | 年输出 |
| 模拟假设 | 固定温室气体浓度或特定情景(如RCP8.5) | 固定温室气体浓度或特定情景(如RCP8.5) | 固定温室气体浓度或特定情景(如SSP5-8.5) |
| 模拟条件 | 全球气候变化情景,关注海洋碳循环和生态系统 | 全球气候变化情景,关注海洋碳循环和生态系统 | 全球气候变化情景,关注碳循环、海洋酸化和生态系统过程 |
数据集划分
1. 随机划分
- 训练集和验证集按7:3比例随机划分。
- 测试数据覆盖所有年份。
- 使用固定随机种子确保可重复性。
2. 时间划分
- CESM2-omip1: 训练(1948-1991),验证(1992-2009)
- CESM2-omip2: 训练(1958-2000),验证(2001-2018)
- GFDL-ESM4: 训练(1920-1986),验证(1987-2014)
3. 空间划分
- 基于WOD(World Ocean Database)范围掩码,将全球海洋划分为五个区域:
- 大西洋、太平洋、印度洋、极地海洋和封闭海域。
- 训练集和验证集按7:3比例分配。
| 海洋区域 | 训练集 | 验证集 |
|---|---|---|
| 大西洋 | 1. 北大西洋 | 1. 赤道大西洋 |
| 2. 北大西洋沿岸 | ||
| 3. 南大西洋 | ||
| 4. 南大西洋沿岸 | ||
| 太平洋 | 5. 北太平洋 | 3. 赤道太平洋 |
| 6. 北太平洋沿岸 | 4. 赤道太平洋沿岸 | |
| 7. 南太平洋 | ||
| 8. 南太平洋沿岸 | ||
| 印度洋 | 9. 北印度洋 | 5. 赤道印度洋 |
| 10. 北印度洋沿岸 | 6. 赤道印度洋沿岸 | |
| 11. 南印度洋 | ||
| 12. 南印度洋沿岸 | ||
| 极地海洋 | 13. 北极 | 7. 南极 |
| 封闭海域 | 14. 波罗的海 | 8. 地中海 |
| 15. 红海 | 9. 黑海 | |
| 10. 波斯湾 | ||
| 11. 苏禄海 |
搜集汇总
数据集介绍

构建方式
OceanVerse数据集通过整合自1900年以来近200万条真实海洋剖面观测数据与三组地球系统数值模拟数据(CESM2-omip1、CESM2-omip2和GFDL-ESM4),构建了一个虚拟地球动力学模型。这些模拟数据源自国际公认的CMIP6计划,空间分辨率统一为1°×1°,时间跨度覆盖1920至2018年,深度分层达33级。数据集采用随机、时间和空间三种划分策略,确保训练集与验证集的比例为7:3,并通过固定随机种子保证划分过程的可复现性。
特点
该数据集以MNAR(非随机缺失)条件为特征,规模较现有数据集提升约100倍节点量,涵盖大西洋、太平洋等五大洋区的时空动态。其独特价值在于融合了多源数值模拟与实测数据,深度层覆盖0-5500米全水柱,且每套模拟数据均对应特定气候情景(如RCP8.5、SSP5-8.5),为海洋碳循环和生态系统研究提供高分辨率基准。空间划分方案严格遵循世界海洋数据库区域掩码,强化了模型跨区域泛化能力评估的可靠性。
使用方法
研究者可通过加载标准化数据文件获取经度、纬度和深度三维网格变量,利用预设的随机/时间/空间划分方案进行模型训练与验证。测试阶段需针对未观测区域评估重建效果,以检验模型全局性能。数据集支持PyTorch框架,调用固定随机种子函数可复现划分结果。对于时空预测任务,建议结合图神经网络处理非结构化网格数据,而年际输出特性使其特别适合长期气候趋势分析。配套代码库提供数据加载接口和评估指标实现,促进AI4Ocean领域的跨研究可比性。
背景与挑战
背景概述
OceanVerse数据集诞生于海洋科学与人工智能交叉研究蓬勃发展的时代背景下,由美国国家大气研究中心(NCAR)和地球物理流体动力学实验室(GFDL)等权威机构联合构建。该数据集整合了1900年以来近200万条实测海洋剖面数据与三套地球系统数值模拟数据(CESM2-omip1/2、GFDL-ESM4),旨在解决海洋观测数据稀疏重建这一关键科学问题。其创新性地构建了符合MNAR(随机缺失)条件的大规模节点网络(约百倍于现有数据集),为海洋碳循环、酸化及生态系统等研究领域提供了前所未有的基准平台,显著推动了AI4Ocean领域的方法论验证与架构革新。
当前挑战
该数据集面临的科学挑战主要体现在两个维度:在领域问题层面,如何准确重建非均匀采样且时空分布高度不连续的海洋参数场,需克服多源数据异质性、跨尺度动力学耦合等难题;在构建技术层面,处理CMIP6模拟数据与实测数据的坐标系统一、缺失值插补,以及保持1°×1°全球网格下33个深度层的数据一致性,均对质量控制算法提出极高要求。空间划分方案中五大洋区的非均衡样本分布,进一步增加了模型泛化能力评估的复杂性。
常用场景
经典使用场景
在海洋科学研究领域,OceanVerse数据集因其独特的时空覆盖范围和高质量的数据整合能力,成为重建稀疏海洋观测数据的经典工具。该数据集整合了自1900年以来的近200万条真实剖面数据和三组地球系统数值模拟数据,为研究者提供了一个大规模、符合MNAR条件的基准数据集。其经典使用场景包括海洋环流模型验证、碳循环模拟以及海洋生态系统动态研究,特别是在全球气候变化背景下,OceanVerse为科学家们提供了一个虚拟地球实验室,使得复杂海洋过程的模拟和预测成为可能。
实际应用
在实际应用层面,OceanVerse数据集已被广泛应用于海洋环境监测和气候预测系统。各国海洋研究机构利用该数据集开发了新一代的海洋状态评估系统,显著提升了海洋热含量、盐度场等关键参数的估算精度。在业务化应用中,基于OceanVerse开发的预测模型为航运安全、渔业资源管理提供了重要决策支持,特别是在厄尔尼诺等气候事件的早期预警方面展现出独特价值。
衍生相关工作
OceanVerse数据集催生了一系列创新性研究,其中最引人注目的是基于图神经网络的海洋数据同化框架。相关研究团队利用该数据集开发了时空注意力机制的新型重建算法,在《Nature Climate Change》等顶级期刊发表了突破性成果。此外,该数据集还促进了跨学科合作,衍生出结合物理约束的深度学习模型,这些工作为AI4Ocean领域建立了新的研究范式。
以上内容由遇见数据集搜集并总结生成



