five

ATLAS-WDS

收藏
Hugging Face2026-05-20 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/wuff-mann/ATLAS-WDS
下载链接
链接失效反馈
官方服务:
资源简介:
ATLAS-WDS是一个用于海浪方向谱压缩与回传任务的开源训练数据集。该数据集的核心目标是支持基于扩散模型的图像到图像生成任务,具体应用于海洋学领域的海浪波谱建模与压缩。数据集每条样本包含一个代表海浪方向谱的47(频率)×72(方向)二维能量矩阵,该矩阵在存储时被展平为一个3384维的float32数组。除了能量矩阵,每条样本还附带了用于描述波谱形状的斜高斯锚点参数(以JSON字符串格式存储),以及关键的海浪物理参数,包括有效波高(Hs)、谱峰周期(Tp)和主波方向(Dp)。此外,样本还包含数据来源(合成或真实)、观测站点、锚点数量、频率与方向维数、总能量及唯一样本ID等元信息。数据集总规模为112,025个样本,明确划分为训练集(100,964例)、验证集(5,532例)和测试集(5,529例)。数据设计支持多阶段训练流程,例如:第一阶段可使用纯能量矩阵进行条件潜在扩散模型预训练;第二阶段可结合能量矩阵与锚点参数训练Swin Transformer编码器;第三阶段则可筛选真实来源数据进行端到端的模型对齐微调。

ATLAS-WDS is an open-source training dataset for ocean wave directional spectrum compression and back-transmission tasks. The core objective of this dataset is to support image-to-image generation tasks based on diffusion models, specifically applied to wave spectrum modeling and compression in oceanography. Each sample in the dataset includes a 47 (frequency) × 72 (direction) two-dimensional energy matrix representing the ocean wave directional spectrum, which is flattened into a 3384-dimensional float32 array during storage. In addition to the energy matrix, each sample is accompanied by skew-Gaussian anchor parameters (stored as JSON strings) to describe the spectrum shape, as well as key ocean wave physical parameters, including significant wave height (Hs), spectral peak period (Tp), and main wave direction (Dp). Furthermore, the sample includes metadata such as data source (synthetic or real), observation station, number of anchors, frequency and direction dimensions, total energy, and unique sample ID. The total dataset size is 112,025 samples, explicitly divided into training set (100,964 cases), validation set (5,532 cases), and test set (5,529 cases). The data design supports multi-stage training processes, for example: the first stage can use pure energy matrices for conditional latent diffusion model pre-training; the second stage can combine energy matrices and anchor parameters to train a Swin Transformer encoder; the third stage can filter real-source data for end-to-end model alignment fine-tuning.
创建时间:
2026-05-18
原始信息汇总

ATLAS-WDS: 海浪方向谱数据集

数据集概述

该数据集专为海浪方向谱的压缩回传训练而设计,旨在支持扩散模型等深度学习任务。

数据格式

每条记录包含以下字段:

字段 类型 说明
sample_id string 样本标识符
energy float32 (3384维) 47×72 能量矩阵,已展平为一维数组
n_freqs int32 频率维度数(47)
n_dirs int32 方向维度数(72)
source string 数据来源(如真实/合成)
station string 观测站点
n_anchors int32 锚点数量
anchors_json string 斜高斯锚点参数(JSON格式)
Hs float32 有效波高
Tp float32 谱峰周期
Dp float32 谱峰方向
total_energy float32 总能量

数据集划分

  • 训练集:100,964 条样本
  • 验证集:5,532 条样本
  • 测试集:5,529 条样本

许可协议

CC-BY-4.0

任务类别

  • 图像到图像(image-to-image)

标签

  • 海洋学 | 海浪谱 | 压缩 | 扩散模型

三阶段训练使用

  1. Stage 1: cLDM 预训练 — 仅使用能量矩阵
  2. Stage 2: Swin 编码器 — 使用能量矩阵 + 锚点参数
  3. Stage 3: 端到端对齐 — 仅使用真实数据(过滤掉合成数据)

关键链接

  • 数据集主页:https://huggingface.co/datasets/wuff-mann/ATLAS-WDS
搜集汇总
数据集介绍
main_image_url
构建方式
ATLAS-WDS数据集专为海浪方向谱的压缩回传任务而构建,其核心数据结构为47个频率与72个方向维度构成的能量矩阵,展平为3384维的浮点数组。每条样本同时包含斜高斯锚点参数,以JSON字符串形式存储。数据源自真实观测与合成模拟两种渠道,共计100,964条训练样本、5,532条验证样本及5,529条测试样本,遵循CC-BY-4.0许可协议开放使用。
特点
该数据集最显著的特点在于其多维信息的高效封装:单一样本不仅记录了完整的海浪能量谱分布,还携带了能量锚点及有效波高(Hs)、谱峰周期(Tp)、谱峰方向(Dp)等关键物理参数。47×72的矩阵分辨率在刻画精细谱结构的同时,为深度神经网络的输入提供了规整的视觉表征形式。合成数据与真实数据的混合设计,则强化了模型对多样性海况的泛化能力。
使用方法
数据集支持灵活的分阶段使用范式。在条件潜扩散模型(cLDM)预训练阶段,可直接提取能量矩阵进行无监督学习;第二阶段利用Swin Transformer编码器,将能量矩阵与锚点参数联合输入以增强语义理解;第三阶段通过过滤source字段为非合成样本,可实施端到端的真实数据对齐训练。利用HuggingFace datasets库的streaming模式,能高效迭代大规模样本而无需一次性加载至内存。
背景与挑战
背景概述
海浪方向谱是海洋学与海洋工程中描述海浪能量在频率和方向分布的核心物理量,其精确反演与高效压缩对于海洋环境监测、海上结构物设计与气候变化研究具有关键意义。ATLAS-WDS数据集由研究团队于2024年创建,旨在解决传统海浪谱数据获取成本高昂、真实样本稀缺的瓶颈问题。该数据集整合了来自ATLAS浮标网络的实测记录与物理驱动的高斯混合模型合成数据,共计超过11万条样本,每条样本包含47×72的能量矩阵及其对应的斜高斯锚点参数。这一架构不仅为海浪方向谱的深度学习建模提供了大规模标准化基准,还创新性地将谱压缩与生成任务引入海洋学领域,推动了扩散模型与条件潜变量模型在海浪数据表示中的应用边界。
当前挑战
ATLAS-WDS数据集所面临的挑战首先源于海洋动力系统的复杂性与观测噪声的干扰。海浪方向谱的天然高维特性(47个频率×72个方向)使得在有限带宽下实现高保真压缩成为难题,传统模型难以兼顾频谱的精细结构与全局能量分布。构建过程中,数据来源的异质性构成了关键障碍:实测数据受限于浮标布设稀疏性与恶劣海况,导致样本覆盖不均衡;而合成数据虽能扩充多样性,却引入了域迁移风险,真实与人工样本之间的分布差异需通过三阶段训练策略小心化解。此外,锚点参数的语义化表示要求模型在低维隐空间与物理端元间建立可解释映射,进一步增加了表征学习的复杂度。
常用场景
经典使用场景
ATLAS-WDS数据集专注于海浪方向谱的压缩与重建任务,其核心应用场景在于训练基于条件潜扩散模型(cLDM)的编解码框架。研究人员可利用该数据集提供的47×72能量矩阵,结合斜高斯锚点参数,构建从高维谱空间到紧凑隐空间的映射模型。这一过程不仅实现了对海浪谱信息的高效压缩,还为后续的物理参数反演与谱形重建奠定了坚实基础。数据集精心划分的训练、验证与测试集(约10万、5千与5千条样本),为模型的泛化性能评估提供了标准化基准。
衍生相关工作
围绕ATLAS-WDS数据集,衍生了一系列具有代表性的研究方向与技术成果。其中,最为突出的包括基于Swin Transformer的谱编码器结构,该结构通过引入斜高斯锚点作为条件输入,显著提升了谱重建的空间连续性。此外,三阶段训练策略(cLDM预训练、锚点辅助编码与真实数据端到端对齐)已被后续工作广泛采纳,成为海浪谱压缩领域的基线范式。这些衍生工作不仅验证了数据集的有效性,还激发了更多关于海洋物理过程引导的生成模型与自监督学习方法的探索。
数据集最近研究
最新研究方向
在海洋学与人工智能交叉领域,ATLAS-WDS数据集为海浪方向谱的智能压缩与生成提供了关键支撑。当前前沿研究聚焦于利用条件潜在扩散模型(cLDM)和Swin Transformer编码器架构,从高维47×72能量矩阵与斜高斯锚点中学习海浪状态的紧凑表征,进而实现卫星或浮标观测数据的高保真压缩回传。这一方向与海洋大数据传输瓶颈、实时海洋预报等热点紧密关联,尤其是在全球海浪监测网络中,高效压缩技术能够显著降低星地通信负载,提升波浪能评估与风暴潮预警的时效性。该数据集通过合成与真实数据的分阶段训练策略,推动了无监督表示学习在物理海洋学中的落地,为海洋数字孪生与气候建模提供了高精度数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作