five

REALM

收藏
github2025-12-21 更新2025-12-22 收录
下载链接:
https://github.com/deepflame-ai/REALM
下载链接
链接失效反馈
官方服务:
资源简介:
REALM(多物理现实AI学习)是一个针对科学机器学习中多物理模拟的基准数据集,包含11个高保真数据集,涵盖从经典问题到复杂推进/火灾安全场景。数据集总大小约15 TB,包含不同类型的网格和多种物理场,旨在提供标准化的预处理、训练和评估流程,以公平比较不同模型的性能。

REALM (Multiphysics Real-world AI Learning) is a benchmark dataset for multiphysics simulation in scientific machine learning. It comprises 11 high-fidelity datasets spanning from classical problems to complex propulsion and fire safety scenarios. The total size of the dataset is approximately 15 TB, containing various types of meshes and multiple physical fields. It aims to provide standardized preprocessing, training, and evaluation workflows to enable fair performance comparisons across different models.
创建时间:
2025-12-14
原始信息汇总

REALM 数据集概述

数据集基本信息

  • 数据集名称:REALM (Realistic AI Learning for Multiphysics)
  • 核心目标:为科学机器学习中神经代理模型的评估提供基准,专注于解决当前评估过度依赖简化基准、无法暴露模型在现实多物理场流中局限性的关键空白。
  • 主要贡献:包含11个高保真数据集、一个严格的评估协议、对12个以上代表性模型家族的系统性评估,并提出了三个关键发现。
  • 相关论文:Benchmarking neural surrogates on realistic spatiotemporal multiphysics flows (arXiv:2506.10862)
  • 官方网站:https://realm-bench.org/
  • 许可证:MIT License

数据集内容与规模

  • 总数据量:约 15 TB
  • 数据集数量:11 个高保真数据集
  • 网格类型:包含规则网格(2D/3D)和不规则网格
  • 网格规模:网格单元数量范围从 2×10⁴ 到 1.2×10⁷
  • 物理场变量:每个案例包含 6 到 40 个物理场
  • 轨迹数量:每个案例包含多种运行条件下的多条轨迹
  • 时间步长:每条轨迹包含 20 到 50 个时间快照

数据集分类与案例

数据集分为四大类别,涵盖从基础问题到复杂应用场景。

1. 经典问题

  • IgnitHIT²ᵈ:均匀各向同性湍流中的氢气点火核。
    • 域:50×50 mm², 1024×1024 网格。
    • 物理:预混火焰传播,湍流-火焰相互作用。
    • 轨迹:36条(变化的点火核几何形状和湍流强度)。
  • ReactTGV³ᵈ:反应性泰勒-格林涡。
    • 域:2π×2π×2π mm³, 256³ 网格。
    • 物理:火焰-涡相互作用,熄火/再点燃。
    • 轨迹:16条(变化的雷诺数和混合长度)。

2. 高马赫数流动

  • PlanarDet²ᵈ:平面胞格爆震。
    • 域:200×10 mm², 840×400 网格。
    • 物理:激波-反应耦合,胞格结构。
    • 轨迹:9条(变化的当量比和温度)。
  • PropHIT³ᵈ:湍流中的传播火焰。
    • 域:42.4×5.3×5.3 δₗ, 1536×128×128 网格。
    • 物理:高压下的湍流预混燃烧。
    • 轨迹:8条(变化的压力和湍流强度)。

3. 推进发动机

  • SupCavityFlame²ᵈ:超音速凹腔火焰。
    • 域:约 3M 不规则网格单元。
    • 物理:超燃冲压发动机燃烧,激波-剪切-火焰相互作用。
    • 轨迹:9条(变化的喷射速度和位置)。
  • SymmCoaxFlame²ᵈ / MultiCoaxFlame³ᵈ:火箭燃烧室。
    • 域:295K (2D) / 13.5M (3D) 不规则网格单元。
    • 物理:剪切同轴喷射,燃烧室声学。
    • 轨迹:12条 (2D), 6条 (3D)(变化的混合比和推力)。

4. 火灾危害

  • PoolFire³ᵈ:浮力驱动的池火。
    • 域:3×3×3 m³, 80×80×200 网格。
    • 物理:羽流动力学,McCaffrey 状态。
    • 轨迹:15条(变化的放热率和池尺寸)。
  • FacadeFire³ᵈ:建筑立面火灾。
    • 域:约 2.5M 不规则网格单元。
    • 物理:隔间-立面耦合,外部火焰蔓延。
    • 轨迹:9条(变化的放热率)。

数据预处理与训练框架

多尺度预处理

  • Box-Cox 变换:将物种的动态范围从 O(10⁻ᵏ) 压缩到 O(1)。
  • Z-score 标准化:对所有变量进行一致的标准化。
  • 自回归训练:使用短时域展开进行稳定的反向传播。

支持的模型家族

  • 谱算子:FNO, FFNO, CROP, DPOT, UNO, LSM
  • 卷积模型:CNext
  • Transformer 风格:FactFormer, Transolver, ONO, GNOT
  • 点态模型:DeepONet, PointNet
  • 图/网格网络:MGN, GraphUNet, GraphSAGE

关键基准测试结果

性能趋势总结

  • 2D 规则案例:FFNO 和 DPOT 实现了最慢的误差增长;CNext 表现出具有竞争力的性能且伪影最小;Transformer 模型在高分辨率下受内存限制。
  • 3D 规则案例:所有模型在保持精细结构方面都存在困难;FFNO 和 DPOT 保持最佳性能;误差累积速度比 2D 案例更快。
  • 不规则网格案例:DeepONet 在不规则几何形状中最稳健;图模型容易过度平滑;谱方法在处理非均匀网格时存在困难。

各类别领先模型(基于排行榜)

类别 最佳模型 测试误差 相关性
2D 规则 FFNO 1.87 0.973
3D 规则 FFNO 18.45 0.896
2D 不规则 DeepONet 29.56 0.796
3D 不规则 DeepONet 23.24 0.768

数据获取与使用

安装与下载

  1. 克隆仓库: bash git clone https://github.com/deepflame-ai/REALM.git cd REALM pip install -r requirements.txt

  2. 数据访问

    • 从官方网站 https://realm-bench.org/ 下载。
    • 使用脚本下载特定案例或全部数据集: bash python scripts/download_data.py --case IgnitHIT python scripts/download_data.py --all

快速开始示例

python from realm import REALMDataset, REALMTrainer from realm.models import FFNO

加载数据集

dataset = REALMDataset( case="IgnitHIT", split="train", preprocessing="standard" )

初始化模型

model = FFNO( in_channels=12, out_channels=12, modes=(16, 16), width=128 )

训练

trainer = REALMTrainer( model=model, dataset=dataset, rollout_steps=2, max_lr=1e-3 ) trainer.fit()

模型评估

bash python scripts/evaluate.py --case IgnitHIT --model FFNO --checkpoint path/to/checkpoint.pt --metrics all

方法论基础

控制方程

多物理场反应流由以下方程控制:

∂q/∂t + ∇·F(q) - ∇·D(q,∇q) + S(q) = 0

其中:

  • q:守恒变量 [ρ, ρu, ρe, ρY₁, ..., ρYₙ]
  • F:对流通量
  • D:扩散通量
  • S:化学源项(刚性 ODEs)

训练协议

  1. 预处理:对物种进行 Box-Cox 变换 (λ=0.1);对所有场进行 Z-score 标准化。
  2. 训练:短时域自回归展开;按物理变量类型分组计算损失;使用 OneCycle 学习率调度。
  3. 评估:全时域自回归展开;评估指标包括 MSE、相关性、SSIM 和推理时间。

引用

如需在研究中使用 REALM,请引用: bibtex @article{mao2025realm, title={Benchmarking neural surrogates on realistic spatiotemporal multiphysics flows}, author={Mao, Runze and Zhang, Rui and Bai, Xuan and others}, journal={arXiv preprint arXiv:2506.10862}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在科学机器学习领域,高保真多物理场数据集的构建是评估神经代理模型的关键基石。REALM数据集通过整合四大类共11个高保真案例,涵盖了从经典问题到复杂推进与火灾安全场景的广泛物理现象。其构建过程依赖于精确的数值模拟,生成约15TB的数据规模,网格类型囊括规则与不规则结构,网格规模从2×10⁴至1.2×10⁷个单元不等。每个案例包含6至40个物理场变量,并针对不同工况生成了多条轨迹,每条轨迹包含20至50个时间快照,从而系统性地捕获了多物理场流动的时空演化特征。
特点
该数据集的核心特点在于其高度的现实性与复杂性,旨在弥补当前简化基准与真实多物理场挑战之间的鸿沟。数据集不仅规模庞大,更在物理真实性上设置了高标准,包含了高马赫流动、推进发动机燃烧以及建筑火灾安全等贴近工程实际的场景。其数据呈现多尺度特性,既有二维规则网格下的基础配置,也有三维不规则几何下的复杂流动,有效揭示了模型在维度、刚度和网格不规则性等方面的扩展瓶颈。这种设计使得数据集能够严格检验不同神经网络架构的归纳偏置与物理可信行为之间的差距。
使用方法
为促进公平比较与可重复研究,REALM提供了一套标准化的使用框架。用户可通过官方网站或脚本工具下载特定或全部案例数据。数据集加载后,需经过Box-Cox变换与Z-score归一化等预处理步骤,以压缩物种浓度的动态范围并标准化变量。训练采用短时域自回归展开策略,确保反向传播的稳定性,并支持对FNO、Transformer、图网络等十余种代表性模型家族的评估。框架内置的训练器与评估脚本简化了模型训练、验证与在标准指标(如MSE、相关性)上的测试流程,便于研究者系统性地探索神经代理模型在真实多物理场环境下的性能边界。
背景与挑战
背景概述
在科学机器学习领域,神经代理模型为加速多物理场仿真提供了崭新路径,然而现有评估体系长期依赖于过度简化的基准,难以揭示模型在真实复杂场景下的性能边界。REALM数据集由北京大学、中国人民大学、AI for Science Institute等机构的研究团队于2025年联合创建,旨在填补这一关键空白。该数据集聚焦于时空多物理场流动的精准建模,核心研究问题在于系统评估神经代理模型在从经典问题到推进系统、火灾安全等实际工程场景中的泛化能力与物理可信度。通过整合约15TB的高保真仿真数据,涵盖规则与不规则网格、二维至三维空间尺度,REALM为多物理场建模领域建立了首个面向真实复杂体系的标准化评估框架,显著推动了科学机器学习从理论验证向工程应用的范式转变。
当前挑战
REALM数据集所应对的领域挑战,本质在于解决多物理场流动中高维、非线性、刚性耦合系统的高效高精度建模难题。具体而言,模型需同时捕捉湍流、化学反应、传热传质等多尺度物理过程的复杂相互作用,并在不规则几何与极端工况下保持数值稳定性与物理一致性。在数据集构建过程中,挑战主要体现于高保真仿真数据的生成与标准化处理:大规模计算流体动力学仿真本身消耗巨量计算资源;多物理场变量动态范围跨越数个数量级,需通过Box-Cox变换等进行有效压缩;不规则网格数据的结构化表示与模型适配亦构成显著障碍。这些挑战共同指向了科学机器学习从理想化基准迈向真实世界应用时必须跨越的技术鸿沟。
常用场景
经典使用场景
在计算流体力学与科学机器学习交叉领域,REALM数据集为评估神经代理模型在真实多物理场流中的性能提供了标准化的基准测试平台。其经典使用场景集中于系统性地比较不同架构的神经网络,如傅里叶神经算子与图神经网络,在预测高保真燃烧、爆震及火灾安全等复杂时空演化过程中的精度与效率。研究者通过该数据集统一的预处理、训练和评估流程,能够客观衡量模型在从规则网格到不规则几何等多种挑战性条件下的泛化能力与计算瓶颈。
实际应用
REALM数据集直接服务于航空航天推进系统与火灾安全等重大工程领域。在超燃冲压发动机和火箭燃烧室的模拟中,数据集能够加速对复杂燃烧不稳定性和喷射混合过程的预测,为发动机设计提供高效的计算工具。在建筑火灾安全场景下,其对池火和外墙火蔓延的模拟数据,有助于开发快速风险评估与应急响应的数字孪生系统。这些应用显著降低了传统高保真计算流体动力学模拟的巨大时间与经济成本。
衍生相关工作
围绕REALM数据集,已衍生出一系列针对多物理场代理模型改进的经典研究工作。例如,基于其揭示的谱方法在非均匀网格上的局限,催生了新一代适应复杂几何的混合架构探索。对DeepONet在非规则网格上鲁棒性的发现,促进了基于算子学习的网格无关方法研究。同时,数据集建立的标准化评估框架,为比较和融合FNO、Transformer以及图神经网络等不同模型家族的优势提供了共同基础,推动了领域内模型评估从简单玩具问题向真实复杂系统范式的转变。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作