RealPDEBench

Hugging Face2026-01-04 更新2026-01-05 收录

下载链接：

https://huggingface.co/datasets/AI4Science-WestlakeU/RealPDEBench

下载链接

链接失效反馈

官方服务：

资源简介：

RealPDEBench是一个针对复杂物理系统的**配对真实世界测量和匹配数值模拟**的基准数据集。它专为**时空预测**和**模拟到现实的转移评估**而设计，基于真实数据。该数据集包含多种场景，如流体系统和燃烧，提供了实验测量和相应的CFD/LES模拟数据。数据集支持三种标准训练范式：仅模拟训练、仅真实世界训练以及模拟预训练加真实微调。数据集以Hugging Face `datasets.Dataset`格式存储，包含多个分片Arrow文件和相关元数据。

创建时间：

2025-12-29

原始信息汇总

RealPDEBench 数据集概述

数据集基本信息

数据集名称：RealPDEBench
发布者：AI4Science-WestlakeU
许可证：CC BY-NC 4.0
主要标签：scientific-ml, physics, pde, sim-to-real, fluid-dynamics, combustion, spatiotemporal
任务类别：time-series-forecasting

数据集核心特点

配对数据：包含真实世界测量数据与匹配的数值模拟数据。
真实世界评估：旨在评估模型在真实数据轨迹上的性能，以量化模拟到现实的差距。
多模态不匹配：模拟数据包含额外的未测量模态（如压力、物种场），支持模态掩码和迁移策略。

数据来源与场景

流体系统

真实数据来源：循环水洞中的粒子图像测速（PIV）。
模拟数据来源：计算流体动力学（CFD），包括2D有限体积+浸入边界法以及3D GPU求解器。
包含场景：cylinder, controlled_cylinder, fsi, foil。

燃烧系统

真实数据来源：OH*化学发光成像（高速）。
模拟数据来源：带有详细化学反应的大型涡模拟（LES）。
包含场景：combustion。

场景详情

| 场景 | 真实数据（测量） | 数值数据（模拟） | 帧数/轨迹 | 空间网格（子采样后） | HDF5轨迹（真实/数值） | |---|---|:---:|:---:|:---:| | cylinder | 速度 (u,v) | (u,v,p) | 3990 | 64×128 | 92 / 92 | | controlled_cylinder | (u,v) | (u,v,p)（文件名中含控制参数） | 3990 | 64×128 | 96 / 96 | | fsi | (u,v) | (u,v,p) | 2173 | 64×64 | 51 / 51 | | foil | (u,v) | (u,v,p) | 3990 | 64×128 | 98 / 99 | | combustion | OH*化学发光强度（1通道） | 强度代理（1）+ 15个模拟场 | 2001 | 128×128 | 30 / 30 |

总轨迹数（HDF5文件）：~735（约367个真实 + 约368个数值）。

真实实验物理参数范围

场景	关键参数（真实）
cylinder	雷诺数 (Re)：1800–12000
controlled_cylinder	(Re)：1781–9843；控制频率 (f)：0.5–1.4 Hz
fsi	(Re)：3272–9068；质量比 (m^*)：18.2–20.8
foil	攻角 (alpha)：0°–20°；(Re)：2968–17031
combustion	CH(_4)比例：20–100%；当量比 (phi)：0.75–1.3

数据格式与结构

在Hugging Face Hub上的格式

每个数据分割存储为Hugging Face datasets.Dataset，使用 Dataset.save_to_disk() 保存。
每个分割是一个目录，包含：
- data-*.arrow（分片的Arrow文件，float32载荷存储为字节）
- dataset_info.json
- state.json

测试模式元数据

支持 test_mode 评估分割（in_dist, out_dist, seen, unseen）。
分组定义以每个场景的JSON字典形式提供，例如 in_dist_test_params_{type}.json，其中 {type} 为 real 或 numerical。

时间窗口

数据以从较长轨迹中切割出的滑动窗口形式存储。
每一行对应 (sim_id, time_id)。
典型窗口长度 (T)：
- cylinder, fsi, foil, combustion：40帧（通常用作20步输入 + 20步输出）
- controlled_cylinder：20帧（通常10 + 10）
- combustion/surrogate_train：20帧（代理模型训练数据）

数据模式（列）

流体数据集

键：sim_id (string), time_id (int), u, v (bytes), p (bytes, 仅数值分割), shape_t, shape_h, shape_w (int)。

燃烧数据集

键：sim_id (string), time_id (int), observed (bytes), numerical (bytes, 仅数值分割), numerical_channels (int), shape_t, shape_h, shape_w (int)。

燃烧代理训练集

键：real (bytes), numerical (bytes), 以及形状参数（*_shape_*）和 numerical_channels。

数据规模

当前转换数据规模（本地转换；完整发布目标）

总计：约 954GB。
最大分片文件：约 0.47GB。
总文件数：约 2.1k 文件。

各场景总计（HF Arrow）

场景	总大小
combustion	622GB
cylinder	116GB
fsi	34GB
controlled_cylinder	61GB
foil	124GB

发布状态

此Hub仓库为RealPDEBench的发布仓库。
完整数据集上传计划与论文发布（2026年1月中旬，arXiv）同步进行。

搜集汇总

数据集介绍

构建方式

RealPDEBench数据集通过整合真实物理系统的实验测量与匹配的数值模拟数据构建而成，涵盖了流体动力学与燃烧科学两大领域。在流体系统中，真实数据来源于循环水洞中的粒子图像测速技术，而数值数据则通过计算流体动力学模拟生成，包括二维有限体积法与浸入边界法，以及三维GPU求解器。对于燃烧场景，真实数据采用高速OH*化学发光成像技术捕获，数值模拟则依托于包含详细化学反应机理的大涡模拟方法。数据集以HDF5文件格式存储时空轨迹，并通过滑动窗口技术切割为时间序列样本，确保了数据在时间与空间维度上的对齐与完整性。

特点

该数据集的核心特征在于其成对的真实与模拟数据配置，为评估仿真到现实的迁移性能提供了坚实基础。每个物理场景均包含实验测量值与对应的计算流体动力学或大涡模拟结果，其中数值模拟额外提供了未在实验中直接观测的多模态物理场，如压力与物种浓度场，从而支持模态掩码与跨模态迁移研究。数据集覆盖了广泛的物理参数范围，例如雷诺数从1800至17031，以及燃烧当量比在0.75至1.3之间，确保了数据在物理空间中的多样性与代表性。此外，数据集通过定义分布内与分布外测试分割，支持对模型泛化能力的系统评估。

使用方法

使用RealPDEBench时，研究人员可通过Hugging Face数据集库加载特定场景的数据分割，利用滑动窗口提取的时空序列作为模型输入。数据集支持三种基准训练范式：仅使用数值模拟数据训练、仅使用真实数据训练，以及先进行模拟预训练再在真实数据上微调。对于大规模数据下载，建议采用snapshot_download函数并配合allow_patterns参数选择性获取所需场景，以避免下载整个仓库。数据解码需通过NumPy库将字节流转换为浮点数组，并依据提供的形状参数重塑为时空张量。评估阶段应严格遵循数据集定义的测试模式，在真实数据上量化仿真到现实的性能差距。

背景与挑战

背景概述

RealPDEBench数据集由西湖大学AI for Scientific Simulation and Discovery实验室于2026年1月发布，旨在为复杂物理系统的时空预测与仿真到现实迁移研究提供基准。该数据集的核心创新在于其成对的真实世界测量数据与匹配的数值模拟数据，涵盖了流体动力学与燃烧科学等多个物理场景。通过整合粒子图像测速与计算流体动力学模拟，数据集直面物理信息机器学习中仿真与实验数据间的鸿沟问题，为评估模型在真实物理环境中的泛化能力设立了新标准，推动了科学机器学习在跨模态、跨领域应用中的实证研究。

当前挑战

RealPDEBench所针对的核心领域挑战在于弥合仿真与真实物理系统之间的性能差距，即仿真到现实的迁移问题。在流体与燃烧等复杂动态系统中，数值模拟常因简化假设、边界条件不精确或多物理场耦合效应而产生偏差，导致基于仿真的模型在真实数据上表现不佳。数据构建过程中的挑战则体现在多源异构数据的对齐与集成上，包括高维时空序列的同步采集、不同模态（如速度场与压力场）的匹配，以及大规模计算流体动力学模拟与实验测量间时空分辨率的一致性校准，这些因素共同增加了数据配对与质量控制的复杂性。

常用场景

经典使用场景

在流体动力学与燃烧科学领域，RealPDEBench数据集为时空预测任务提供了独特的实验与模拟配对数据。该数据集最经典的使用场景在于评估模型在真实物理系统上的泛化能力，特别是通过滑动窗口构建的时空序列，支持输入20帧预测后续20帧的典型范式。研究人员可利用其提供的多种场景，如圆柱绕流、流体-结构相互作用及氨/甲烷混合燃烧，训练深度学习模型进行速度场、压力场或化学发光强度的精准预测，从而在复杂动态系统中验证算法的鲁棒性与准确性。

衍生相关工作

围绕RealPDEBench数据集，已衍生出一系列专注于仿真到现实迁移的经典研究工作。这些工作主要集中在利用多模态模拟数据（如未测量的压力场、物种浓度场）来增强模型对真实观测的预测能力，发展了基于模态掩码与跨模态转换的算法框架。此外，该数据集也催生了针对时空序列的神经网络架构创新，例如结合物理约束的递归神经网络与注意力机制，这些模型在流体预测与燃烧动力学任务中展现了卓越的性能，推动了科学机器学习领域的算法进步。

数据集最近研究