ARCO-OCEAN Dataset
收藏github2025-11-04 更新2025-11-08 收录
下载链接:
https://github.com/inogs/arco-ocean
下载链接
链接失效反馈官方服务:
资源简介:
ARCO-OCEAN是一个分析就绪的云优化数据集,提供1993年1月1日至2021年6月30日约28年期间的海洋、波浪和海冰物理属性。该数据集还包括作为边界条件所需的大气和水文变量,用于驱动数值模拟。数据在0.25°水平空间分辨率的规则网格上离散化,时间分辨率为1天,以Zarr格式分发,专为训练机器学习预报模型设计。
ARCO-OCEAN is an analysis-ready cloud-optimized dataset that provides physical properties of the ocean, waves, and sea ice spanning approximately 28 years from January 1, 1993, to June 30, 2021. The dataset also includes atmospheric and hydrological variables required as boundary conditions for driving numerical simulations. The data is discretized on a regular grid with a horizontal spatial resolution of 0.25°, with a temporal resolution of 1 day, and distributed in Zarr format, specifically designed for training machine learning forecasting models.
创建时间:
2025-10-15
原始信息汇总
ARCO-OCEAN 数据集概述
数据集简介
ARCO-OCEAN是一个面向机器学习海洋状态预测的分析就绪云优化数据集,首次同时包含海洋状态及其强迫数据,专为次季节至季节(S2S)预测的耦合大气-海洋模型设计。
数据基本信息
- 时间范围:1993年1月1日至2021年6月30日(约28年)
- 时间分辨率:1天
- 空间分辨率:0.25°规则网格
- 数据格式:Zarr存储规范版本2(计划迁移至版本3)
- 数据分块:仅沿时间维度分块,块大小为1天
- 压缩方式:LZ4压缩,压缩级别1
数据来源与变量
海洋和海冰数据
来源:GLORYS12再分析数据(DOI: 10.48670/moi-00021)
垂直层次:从50层缩减至10层,深度范围0.494米至902.339米
动态变量:
thetao:位势温度(°C)so:盐度(PSU)uo:东向海洋流速(m/s)vo:北向海洋流速(m/s)zos:海面高度(m)mlostst:混合层厚度(m)siconc:海冰浓度sithick:海冰厚度(m)usi:东向海冰速度(m/s)vsi:北向海冰速度(m/s)
时间不变量:
deptho:海洋深度(m)glorys_mask:GLORYS12海陆掩码
波浪数据
来源:WAVERYS再分析数据(DOI: 10.48670/moi-00022)
波浪变量:
swh:谱有效波高(m)swp:谱矩波周期(s)mwd:平均波方向(deg)usd:斯托克斯漂移东向速度(m/s)vsd:斯托克斯漂移北向速度(m/s)
时间不变量:
waverys_deptho:海洋深度(m)waverys_mask:WAVERYS海陆掩码
大气数据
来源:ERA5再分析数据
大气变量:
2t:2米气温(K)2d:2米露点温度(K)sp:地表气压(Pa)ssrd:地表短波辐射(J/m²)strd:地表长波辐射(J/m²)tp:小时总降水率(m)10u:10米东向风速(m/s)10v:10米北向风速(m/s)i10fg:10米最大阵风(m/s)
时间不变量:
z:地表重力位能(m²/s²)lsm:网格单元陆地比例
水文数据
来源:GloFAS历史数据
水文变量:
dis24:过去24小时平均流量(m³/s)
时间不变量:
uparea:各河流像元的上游面积(m²)glofas_mask:GloFAS海陆掩码
数据处理说明
- 所有变量在0.25°网格上离散化
- 原始数据经过重网格化处理
- 包含缺失值(NaNs)和无效点处理
- 数据集提供统计信息(气候学、平均值等)
搜集汇总
数据集介绍

构建方式
在海洋科学领域,ARCO-OCEAN数据集通过整合多源再分析数据构建而成,涵盖1993年至2021年约28年的海洋观测记录。该数据集采用0.25°水平空间分辨率的规则网格,时间分辨率为每日,通过精心设计的重网格化流程将原始数据统一至标准网格。特别值得注意的是,数据集对GLORYS12海洋再分析的垂直层次进行了优化采样,从50层缩减至10层,重点保留混合层、密度跃层和温跃层等关键动力学特征。数据存储采用Zarr格式,沿时间维度分块并应用LZ4压缩,实现了云环境下的高效访问。
特点
作为首个同时包含海洋状态及其驱动力的数据集,ARCO-OCEAN集成了海洋环流、海冰、波浪、大气和水文五大类变量。其独特之处在于融合了GLORYS12高分辨率海洋再分析、WAVERYS波浪再分析、ERA5大气再分析以及GloFAS水文数据,形成了完整的海气耦合表征。数据集特别关注次季节至季节尺度预报需求,精选的变量涵盖海表温度、盐度、海流速度、海冰浓度等核心物理参数,同时包含风应力、热通量等关键边界条件变量,为机器学习模型提供了全面的训练基础。
使用方法
该数据集专为机器学习驱动的海洋状态预报模型训练而设计,用户可通过云存储直接访问Zarr格式数据或下载至本地。数据集采用时间维度分块策略,每块包含单日数据,便于高效读取短期序列。对于需要计算气候态等统计量的应用,建议使用数据集提供的预计算统计结果。在模型训练过程中,需特别注意处理陆地掩码和缺失值,避免NaN污染影响模型性能。数据集支持多种编程环境下的数据加载,为开发数据驱动的海气耦合预报系统提供了标准化输入。
背景与挑战
背景概述
海洋状态预测作为次季节至季节尺度气候预报的核心环节,长期面临多源数据融合与耦合建模的复杂性。ARCO-OCEAN数据集由Campanella等学者于2025年主导构建,首次整合了海洋状态变量与大气水文驱动因子,覆盖1993年至2021年共28年的高精度再分析数据。该数据集通过融合GLORYS12海洋再分析、WAVERYS波浪数据及ERA5大气再分析等多源资料,以0.25°空间分辨率与日尺度时间分辨率,为机器学习模型提供了涵盖海流、海温、海冰、波浪等多元物理场的训练基础,显著推动了数据驱动型海洋预报方法的发展。
当前挑战
在海洋预报领域,ARCO-OCEAN需解决次季节尺度上海-气耦合动力学的非线性建模难题,特别是如何有效表征海洋混合层与大气边界层的能量交换过程。数据构建过程中面临多重挑战:多源异构数据的时空对齐需处理GLORYS12原始数据在低纬度区域的空值填补问题;垂直维度压缩时需平衡动力学特征保留与存储效率,通过精选10个特征层深度以捕捉混合层与温跃层关键物理过程;网格重采样时需规避无效值传播对机器学习训练的干扰,同时维持海洋岸线掩膜数据的几何一致性。
常用场景
经典使用场景
在海洋与大气耦合建模领域,ARCO-OCEAN数据集通过整合海洋状态变量与大气驱动因子,为次季节至季节尺度(S2S)的预测任务提供了标准化训练框架。其经典应用场景体现在构建数据驱动的海洋环流预报模型,例如利用海表温度、盐度及海冰浓度等变量,结合风应力与热通量等大气边界条件,训练具有物理一致性的神经网络模型。这类模型能够捕捉海洋混合层与温跃层的动态变化,为研究厄尔尼诺-南方振荡等气候现象提供关键数据支撑。
实际应用
ARCO-OCEAN的实际价值体现在提升海洋环境服务的精准度。基于该数据集训练的模型可应用于航运路径优化,通过预测海冰厚度与洋流速度降低航行风险;在海洋可再生能源开发中,斯托克斯漂移速度与波浪周期数据为浮式风电装置设计提供动态载荷参数。此外,其日分辨率数据还能支撑海岸带管理,例如结合海平面高度异常预测风暴潮侵袭范围,为防灾减灾决策提供科学依据。
衍生相关工作
该数据集已催生多项创新研究,例如El Aouni等人开发的OceanNet架构,通过融合表层温度与风场数据实现了周尺度海温异常预测。Cui团队则借鉴其变量选择策略,构建了耦合生物地球化学过程的扩展模型。在方法论层面,基于ARCO-OCEAN的掩码处理技术启发了针对陆地-海洋边界的数据同化新方法,而其对波浪变量的独特整合正推动着海气通量参数化的深度学习替代方案研究。
以上内容由遇见数据集搜集并总结生成



