ODE_Lorenz, PDE_KS, SST

Name: ODE_Lorenz, PDE_KS, SST
Creator: 华盛顿大学应用数学系, 哥伦比亚大学计算机科学系, 华盛顿大学电子与计算机工程系, SURF高性能机器学习, 华盛顿大学机械工程系, 米兰理工大学核工程系, 米兰理工大学机械工程系, 贝鲁特美国大学数学系, 贝鲁特美国大学机械工程系, 剑桥大学应用数学与理论物理系
Published: 2025-10-27 17:44:38
License: 暂无描述

arXiv2025-10-27 更新2025-10-29 收录

下载链接：

https://github.com/ctf4science

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由华盛顿大学、哥伦比亚大学等机构的研究人员创建，旨在为科学机器学习提供一个通用的任务框架（CTF）。数据集包括Lorenz方程、Kuramoto-Sivashinsky方程以及全球真实海表面温度数据，旨在评估机器学习算法在预测、状态重建和现实约束下的泛化能力。该框架提供了一系列任务特定的指标，包括噪声和有限数据情况下的预测和重建。

This dataset was created by researchers from institutions including the University of Washington, Columbia University, and other academic organizations. It aims to provide a general task framework (CTF) for scientific machine learning. The dataset includes the Lorenz equations, Kuramoto-Sivashinsky equations, and global real sea surface temperature data, and is designed to evaluate the generalization capabilities of machine learning algorithms for prediction, state reconstruction, and tasks under realistic constraints. This framework offers a suite of task-specific metrics, including prediction and reconstruction under noisy and limited-data conditions.

提供机构：

华盛顿大学应用数学系, 哥伦比亚大学计算机科学系, 华盛顿大学电子与计算机工程系, SURF高性能机器学习, 华盛顿大学机械工程系, 米兰理工大学核工程系, 米兰理工大学机械工程系, 贝鲁特美国大学数学系, 贝鲁特美国大学机械工程系, 剑桥大学应用数学与理论物理系

创建时间：

2025-10-27

搜集汇总

数据集介绍

构建方式

在科学机器学习领域，标准化评估框架的缺失已成为制约方法比较的关键瓶颈。该数据集通过数值模拟经典非线性系统构建而成：Lorenz方程作为混沌动力学的典型代表，其三维状态变量通过龙格-库塔法离散求解；Kuramoto-Sivashinsky方程则作为空间扩展系统的基准，在周期性边界条件下采用谱方法进行空间离散，再结合时间推进算法生成时空演化数据。数据矩阵按时间步长系统排列，通过精确控制参数范围与初始条件，构建出包含训练集与隐藏测试集的标准化数据对。

特点

该数据集最显著的特征在于其多维评估体系的设计。针对科学机器学习中的核心挑战，数据集系统集成了四大测试场景：基础预测任务评估模型在清洁数据下的短期预报与长期统计特征捕捉能力；噪声鲁棒性测试通过添加中高强度噪声，检验模型在真实测量环境下的去噪与预测性能；数据稀缺性测试模拟实际工程中常见的数据受限场景，评估模型在小样本条件下的泛化能力；参数泛化测试则通过改变系统参数，考察模型在未见参数区间的插值与外推性能。这种多维度评估框架为方法比较提供了立体化的性能剖面。

使用方法

研究社区可通过标准化流程使用该数据集进行方法评估。用户首先需要从指定平台获取训练数据，基于给定数据矩阵训练预测模型，随后对隐藏测试集生成预测结果。评估系统采用十二项指标综合评分机制，涵盖短期预测的均方根误差、长期预测的谱特征匹配度、噪声环境下的重构精度等多重维度。所有预测结果需通过自动化评估管道提交，系统将生成雷达图可视化报告，展示方法在各任务维度的性能特征。这种标准化使用流程确保了评估结果的客观性与可重复性。

背景与挑战

背景概述

科学机器学习领域在快速发展过程中面临标准化评估框架缺失的挑战，华盛顿大学应用数学系联合多所研究机构于2025年提出通用任务框架（CTF），通过构建ODE_Lorenz、PDE_KS和SST三个基准数据集，为动态系统建模方法提供统一评估标准。该框架以洛伦兹动力系统和Kuramoto-Sivashinsky偏微分方程作为典型测试基准，聚焦于混沌系统和时空混沌系统的预测与重构任务，通过设计包含噪声干扰、数据受限等现实约束的十二项评估指标，推动科学机器学习从临时性比较转向系统性验证，为算法性能提供多维度的客观度量。

当前挑战

该数据集需解决动态系统预测中的核心难题：混沌系统对初始条件的极端敏感性导致长期预测存在理论极限，Kuramoto-Sivashinsky方程的高维非线性特性对模型表达能力提出严峻考验。在构建过程中面临双重挑战：一是需要平衡数值模拟精度与计算效率，确保数据集既能反映系统本质动力学又具备可操作性；二是设计评估体系时需兼顾短期精确预测与长期统计特性，针对连续系统与离散系统分别建立谱误差和分布误差的量化标准，同时处理参数化泛化任务中插值与外推的稳定性问题。

常用场景

经典使用场景

在科学机器学习领域，ODE_Lorenz、PDE_KS和SST数据集作为标准基准，被广泛应用于评估动态系统建模算法的性能。这些数据集通过提供非线性常微分方程、偏微分方程以及真实世界海表温度数据，为研究者在混沌系统预测、时空重建等任务中提供了统一的测试平台。经典应用场景包括利用Lorenz系统验证短期天气预报模型，或通过Kuramoto-Sivashinsky方程测试高维混沌系统的长期气候模拟能力，有效推动了科学计算与机器学习的交叉研究。

衍生相关工作

基于该基准框架已衍生出多项具有影响力的研究工作，其中深度算子网络（DeepONet）在时空数据预测任务中展现出独特优势，而储备计算（Reservoir Computing）则在混沌时间序列建模中表现卓越。稀疏识别非线性动力学（SINDy）方法通过可解释的方程发现机制，在参数化系统建模领域取得突破性进展。这些衍生工作不仅丰富了科学机器学习的算法生态，更通过CTF平台的多维度评估揭示了不同方法在噪声鲁棒性、数据效率等特定维度的性能边界，推动了领域方法论体系的完善。

数据集最近研究