SuperBench

Name: SuperBench
Creator: 劳伦斯伯克利国家实验室
Published: 2023-06-25 06:39:33
License: 暂无描述

arXiv2023-06-25 更新2024-06-21 收录

下载链接：

https://github.com/erichson/SuperBench

下载链接

链接失效反馈

官方服务：

资源简介：

SuperBench是一个专为科学机器学习中超分辨率技术设计的基准数据集，由劳伦斯伯克利国家实验室等机构创建。该数据集包含高达2048×2048分辨率的数据，涵盖流体流动、宇宙学和天气等多个科学领域。数据集的创建旨在通过提供标准化的评估和比较，推动超分辨率方法在科学任务中的应用。SuperBench不仅用于验证空间超分辨率性能，还评估了数据降级任务的鲁棒性。该数据集的应用领域包括加速数值模拟和提高天气、气候及相关领域的预测精度。

SuperBench is a benchmark dataset specifically designed for super-resolution techniques in scientific machine learning, developed by Lawrence Berkeley National Laboratory and other institutions. The dataset contains data with a maximum resolution of 2048×2048, covering multiple scientific fields including fluid dynamics, cosmology, and meteorology. It was created to advance the application of super-resolution methods in scientific tasks by providing standardized evaluation and comparative frameworks. SuperBench is used not only to validate spatial super-resolution performance but also to assess the robustness of data degradation tasks. Its application areas include accelerating numerical simulations and improving prediction accuracy in weather, climate, and related domains.

提供机构：

劳伦斯伯克利国家实验室

创建时间：

2023-06-25

搜集汇总

数据集介绍

构建方式

在科学机器学习领域，超分辨率技术旨在从低分辨率数据中恢复精细结构，但缺乏标准化基准数据集制约了该技术的发展。SuperBench的构建过程聚焦于填补这一空白，通过整合来自流体动力学、宇宙学和气象学的高质量模拟数据，形成了首个涵盖高分辨率（最高达2048×2048）的科学超分辨率基准数据集。数据集的构建采用了多领域协同策略，具体包括从纳维-斯托克斯方程的直接数值模拟中提取湍流数据，基于Nyx代码生成宇宙学流体动力学模拟，以及从ERA5再分析资料中选取气象变量。所有数据均经过严格的预处理，包括空间子区域裁剪、标准化处理以及插值与外推数据集的划分，确保了数据在科学严谨性与计算可行性之间的平衡。

使用方法

SuperBench数据集的使用旨在系统评估超分辨率方法在科学任务中的性能。研究人员可通过提供的GitHub仓库获取数据集与基准代码，数据以HDF5格式存储，并附有详细的数据加载脚本。使用过程首先需根据研究目标选择特定的数据子集与退化场景，例如针对流体数据的×16上采样任务或宇宙学数据的低分辨率模拟输入任务。在模型训练阶段，建议采用随机裁剪为128×128图像块的方式进行，以适配内存限制，并使用数据特定的均值与标准差进行标准化。评估时，除了计算标准的相对Frobenius范数误差、峰值信噪比与结构相似性指数外，鼓励用户结合领域知识定义自定义的物理约束指标，如流体连续性损失或气候多尺度分析指标。数据集还明确区分了插值与外推测试集，以检验模型的泛化能力，从而全面推动科学超分辨率方法向保持物理真实性与高保真重建的方向发展。

背景与挑战

背景概述

在科学机器学习领域，超分辨率技术旨在通过提升数据分辨率来揭示更精细的物理结构，从而加速数值模拟并改善气象、气候等领域的预测精度。然而，该领域长期缺乏标准化的基准数据集，严重制约了不同方法的比较与验证。为应对这一挑战，由劳伦斯伯克利国家实验室、加州大学伯克利分校等机构的研究团队于2023年联合推出了SuperBench数据集。该数据集首次汇集了流体流动、宇宙学和气象学领域的高分辨率科学数据，空间维度最高达2048×2048，文件总容量达268GB。其核心研究目标在于建立科学超分辨率任务的统一评估基准，推动数据驱动方法与物理约束模型的深度融合，对计算流体力学、物理信息机器学习等方向的发展具有里程碑意义。

当前挑战

SuperBench数据集所应对的科学超分辨率任务面临双重挑战。在领域问题层面，科学数据具有复杂的多尺度结构（如湍流涡旋、宇宙大尺度结构），且必须遵循守恒律、连续性等物理约束。现有基于计算机视觉的超分辨率方法虽在像素精度上表现优异，却难以准确捕捉细微尺度特征，更无法保证生成结果符合物理规律。在数据集构建层面，挑战主要体现在三个方面：其一，高分辨率科学数据的生成依赖大规模数值模拟，计算成本极高；其二，需设计涵盖双三次下采样、均匀下采样加噪声、直接低分辨率模拟等多种退化场景，以贴近实际科学观测与模拟的复杂性；其三，数据预处理需解决科学数据值域范围广、量纲不统一的问题，并构建兼顾插值与外推能力的评估子集，以全面检验模型的泛化性能。

常用场景

经典使用场景

在科学机器学习领域，SuperBench数据集作为首个高分辨率科学数据基准，为超分辨率方法提供了标准化评估平台。该数据集涵盖流体动力学、宇宙学和气象学等领域的复杂时空数据，其经典使用场景在于推动空间超分辨率算法的性能验证与比较。研究者通过SuperBench能够系统测试不同模型在恢复精细尺度结构、处理多尺度特征方面的能力，尤其在面对高达2048×2048分辨率的科学数据时，数据集为算法鲁棒性和物理一致性评估提供了关键支撑。

解决学术问题

SuperBench数据集有效解决了科学机器学习中缺乏标准化基准的核心难题，为超分辨率方法的性能比较与验证提供了统一框架。它针对科学数据特有的物理约束和多尺度特性，帮助研究者识别传统计算机视觉方法在捕捉精细特征、保持物理属性方面的局限性。通过引入多种数据退化场景（如双三次下采样、含噪声均匀下采样及低分辨率模拟输入），该数据集促进了面向科学任务的超分辨率技术发展，强调了领域知识融入机器学习模型的重要性，从而推动了物理约束机器学习等新兴研究方向。

实际应用

SuperBench数据集的实际应用广泛涉及气候模拟、流体力学分析和宇宙学建模等科学计算领域。在气象预报中，该数据集支持开发能够从低分辨率模拟中恢复高分辨率天气模式的方法，助力提升风暴分辨率预测的准确性。在流体动力学研究中，它帮助优化湍流模拟的精细结构重建，降低高分辨率数值模拟的计算成本。此外，数据集还可用于增强实验测量数据的空间分辨率，为遥感观测、环境监测等实际工程问题提供高效的数据增强解决方案。

数据集最近研究