FOWD
收藏arXiv2021-04-28 更新2024-06-21 收录
下载链接:
https://sid.erda.dk/public/archives/969a4d819822c8f0325cb22a18f64eb8/published-archive.html
下载链接
链接失效反馈官方服务:
资源简介:
FOWD是由哥本哈根大学尼尔斯玻尔研究所开发的自由海洋波浪数据集,用于数据挖掘和机器学习。该数据集包含超过42亿个波浪和海洋状态的观测数据,通过处理原始观测数据,将其转换为描述海洋状态参数与观测波浪量的目录。FOWD特别采用运行窗口方法,考虑海洋的非静止特性,并通过广泛的质量控制减少数据集的偏差。数据集的应用领域包括极端波浪研究,旨在通过现代数据挖掘和机器学习方法解决极端波浪事件的预测和理解问题。
FOWD is a free ocean wave dataset developed by the Niels Bohr Institute at the University of Copenhagen, intended for data mining and machine learning applications. The dataset encompasses over 4.2 billion observational records of waves and ocean states. Raw observational data is processed and transformed into a catalog that documents ocean state parameters and measured wave quantities. FOWD specifically adopts the sliding window method to account for the non-stationary nature of the ocean, and implements extensive quality control to mitigate biases within the dataset. Application areas of the dataset include extreme wave research, which aims to address the prediction and understanding of extreme wave events through modern data mining and machine learning techniques.
提供机构:
哥本哈根大学尼尔斯玻尔研究所
创建时间:
2020-11-24
搜集汇总
数据集介绍

构建方式
在海洋波浪研究领域,FOWD数据集的构建采用了创新的运行窗口处理方法,以应对海洋非平稳性的挑战。该数据集基于CDIP浮标网络的原始观测数据,通过严格的质控流程,将海面高程时间序列转化为映射海况参数与波浪观测量的目录。具体而言,研究团队运用了韦尔奇方法进行谱密度估计,并结合线性波色散关系实现时空域转换,确保了数据在物理上的准确性与一致性。整个处理过程通过Python参考实现高效执行,最终生成了包含超过42亿个波浪记录的NetCDF4格式数据集。
特点
FOWD数据集的核心特点在于其多维度的参数覆盖与精细的结构设计。数据集不仅包含波浪特异性参数如波高和波陡,还聚合了描述历史海况的多种特征,包括谱带宽、本杰明-费尔指数和波峰-波谷相关性等。此外,数据集引入了方向性参数,并通过频率带划分揭示了不同物理机制的影响。其独特的运行窗口处理方式有效避免了未来信息泄露,为机器学习应用提供了可靠的基础。数据集还附带了完整的元数据,确保了处理过程的可重复性与透明度。
使用方法
FOWD数据集为海洋极端波浪研究提供了强大的分析平台。用户可直接下载预处理后的NetCDF4文件,利用xarray等工具进行高效的数据读取与操作。数据集支持多种研究场景,包括单变量分析与多变量机器学习建模,例如通过逻辑回归或随机森林等方法探索海况参数与畸形波发生概率的关联。研究人员亦可利用附带的Python工具包处理自定义的原始观测数据,扩展数据集的适用范围。在具体应用中,建议结合贝叶斯统计方法处理罕见事件的不确定性,以提升结论的稳健性。
背景与挑战
背景概述
海洋极端波浪(即所谓“疯狗浪”)的生成机制长期笼罩于迷雾之中,其罕见性使得传统分析方法难以深入探究。为应对这一挑战,哥本哈根大学尼尔斯·玻尔研究所的Dion Häfner等人于2021年推出了FOWD(自由海洋波浪数据集),旨在为数据挖掘与机器学习方法提供大规模、高质量的海浪观测数据。该数据集基于美国海岸数据信息计划(CDIP)浮标网络超过40亿次波浪测量记录,通过滑动窗口处理与严格质量控制,将海况参数与单个波浪特征精准关联,从而为极端波浪的统计分析与预测研究奠定了坚实的数据基础。
当前挑战
FOWD数据集致力于解决极端波浪预测这一核心领域问题,其挑战在于如何从高噪声、非平稳的海洋观测数据中,准确识别与量化罕见疯狗浪事件的发生规律。构建过程中的挑战则体现在多个层面:首先,原始浮标数据存在线性化偏差与采样变异性,可能导致波浪高度被系统性低估;其次,海洋环境的非平稳性要求采用动态滑动窗口而非固定时间块进行处理,以消除未来信息泄露并减少系统性误差;此外,数据质量控制需排除异常记录(如尖峰、振荡及不物理值),同时应对超过1TB规模数据的存储与高效计算,确保最终数据集的可靠性与可复现性。
常用场景
经典使用场景
在海洋工程与物理海洋学领域,FOWD数据集为研究极端波浪(如畸形波)的统计特性与生成机制提供了关键数据基础。该数据集通过处理CDIP浮标网络获取的超过40亿个波浪观测记录,构建了海况参数与波浪特征之间的映射关系,其经典应用场景在于利用数据挖掘与机器学习方法,探索海况参数(如谱带宽、波陡、峰度等)对极端波浪发生概率的影响。例如,研究者可基于FOWD分析表面高程峰度、最大波高等单变量预测因子与畸形波活动之间的关联,从而揭示海洋非线性动力学过程中的统计规律。
衍生相关工作
FOWD数据集推动了多领域衍生研究,其标准化处理框架与开放数据策略激发了后续工作。在机器学习领域,研究者利用该数据集训练神经网络模型,预测畸形波发生概率并探索多参数交互效应;在物理海洋学中,基于FOWD的统计分析深化了对本杰明-费尔指数、波陡等非线性参数作用的讨论。相关经典工作包括改进的波浪高度分布模型(如Tayfun分布)验证、方向性修正的峰度计算,以及基于数据同化的海浪预报模型优化。这些衍生研究共同促进了极端波浪预测从经验模型向数据驱动范式的转变。
数据集最近研究
最新研究方向
在海洋波浪研究领域,FOWD数据集正推动着对极端波浪(如畸形波)预测机制的深入探索。该数据集整合了超过40亿个波浪观测数据,为数据挖掘和机器学习方法提供了高质量的输入,使得研究人员能够从海量数据中识别出影响畸形波发生的关键海况参数。当前的前沿研究聚焦于利用FOWD进行多变量分析,以揭示海面高程峰度、波峰-波谷相关性以及谱带宽等参数的协同作用,从而更精确地量化畸形波的风险概率。这一进展不仅有助于深化对海洋非线性动力学的理解,也为船舶航行和海洋工程的安全评估提供了重要的数据支持,标志着海洋波浪研究从传统统计方法向大数据驱动范式的转变。
相关研究论文
- 1FOWD: A Free Ocean Wave Dataset for Data Mining and Machine Learning哥本哈根大学尼尔斯玻尔研究所 · 2021年
以上内容由遇见数据集搜集并总结生成



