PLAID (Physics-Learning AI Datamodel)
收藏arXiv2025-05-08 更新2025-05-08 收录
下载链接:
https://gitlab.com/drti/plaid
下载链接
链接失效反馈官方服务:
资源简介:
PLAID数据集是一个用于机器学习的物理模拟数据集,由SafranTech等研究机构创建。该数据集包含六个精心设计的子数据集,涵盖结构力学和计算流体动力学领域,数据集大小和内容丰富,适用于多种物理和数值复杂性。PLAID数据集采用统一的描述标准,并提供了相应的软件库,方便数据集的创建、读取和高级交互。这些数据集可以应用于机器学习模型训练和基准测试,旨在解决物理模拟中计算成本高的问题。
The PLAID dataset is a physical simulation dataset for machine learning, developed by research institutions such as SafranTech. It comprises six meticulously designed sub-datasets spanning the domains of structural mechanics and computational fluid dynamics, with varied scales and comprehensive content, suitable for scenarios involving diverse physical and numerical complexities. The PLAID dataset adopts unified descriptive standards, and provides supporting software libraries to facilitate the creation, loading and advanced manipulation of the dataset. These datasets can be utilized for machine learning model training and benchmarking, with the objective of addressing the high computational cost issue inherent in physical simulations.
提供机构:
SafranTech, Ecole des Ponts ParisTech (CERMICS), Mines Paris - PSL (CEMEF), Ecole Poytechnique (CMAP), ONERA (DAAA), EPFL, ENS Paris-Saclay, Augur, Inria, Airbus, ISAE-SUPAERO
创建时间:
2025-05-06
搜集汇总
数据集介绍

构建方式
PLAID数据集通过整合结构力学与计算流体动力学的高保真数值模拟构建而成,采用CGNS标准实现几何与物理场的统一描述,并利用Hugging Face平台实现高效数据流管理与社区共享。其构建过程包含多物理场耦合仿真、非结构化网格处理及稳态/瞬态解决方案的标准化封装,每个数据集均通过Z-set、DOLFINx等专业求解器生成,确保了数值精度与物理真实性。
特点
该数据集以多尺度几何变异性和复杂物理场耦合为显著特征,涵盖二维/三维非结构化网格、混合单元类型及动态重网格技术。其独特之处在于支持节点/单元标签、多时空维度拓扑结构,并提供嵌套训练集与分布外测试样本,如Rotor37的块结构各向异性网格与2D_ElPlDynamics的瞬态弹塑性破坏模拟,为机器学习模型提供了工业级挑战性场景。
使用方法
用户可通过Hugging Face直接加载PLAID数据集,利用配套Python库实现几何-物理场的联合访问。典型流程包括:调用Sample类解析样本数据,通过get_field获取时空离散场,结合get_scalar提取关键参数;基准测试需提交标准化预测文件至平台自动化评估系统,系统将基于相对均方根误差(RRMSE)比对场/标量输出,并动态更新公开排行榜。
背景与挑战
背景概述
Physics-Learning AI Datamodel (PLAID) 数据集由SafranTech等机构的研究团队于2025年提出,旨在解决物理仿真领域机器学习替代模型面临的数据标准化与多样性不足的核心问题。该数据集通过统一CGNS标准框架,整合了结构力学与计算流体力学等领域的多物理场仿真数据,其创新性在于支持非参数化几何变化、混合元素网格等复杂场景,为物理基础模型训练提供了首个可扩展的基准平台。作为arXiv:2505.02974v1论文的核心贡献,PLAID通过Hugging Face平台开放的六个精校数据集,显著推动了工业仿真与科学机器学习领域的跨机构协作研究。
当前挑战
PLAID数据集面临双重挑战:在领域问题层面,需解决物理仿真中高维参数空间、时空多尺度耦合及非结构化网格动态变化等复杂场景下的泛化建模难题,例如Rotor37数据集中的三维湍流预测需突破传统替代模型的维度限制;在构建层面,实现跨商业仿真软件(如Z-set、OpenRadioss)的数据标准化涉及异构网格对齐、时变场插值等关键技术挑战,如2D_ElPlDynamics数据集需处理损伤演化导致的拓扑变化。此外,数据集的大规模验证需开发兼顾计算效率与物理一致性的新型评估指标,这对传统机器学习方法提出了适应性改造要求。
常用场景
经典使用场景
PLAID数据集在科学计算与工程仿真领域具有广泛的应用价值,其经典使用场景主要集中于构建机器学习代理模型以加速物理仿真流程。该数据集通过提供结构力学和计算流体动力学(CFD)的高保真仿真数据,支持研究人员训练图神经网络(如MeshGraphNets)和傅里叶神经算子等模型,用于预测复杂物理场(如应力分布、流速场)和关键标量指标(如最大冯·米塞斯应力、质量流量)。其标准化格式和多样化几何配置特别适用于研究非参数化几何变异下的物理场映射问题。
解决学术问题
PLAID解决了物理仿真机器学习领域长期存在的三大瓶颈问题:首先,通过统一基于CGNS的数据模型,打破了传统数据集在格式碎片化和领域局限性上的壁垒,实现了跨物理域数据的互操作性;其次,其包含的六类数据集(如Tensile2d、Rotor37)针对非线性结构力学和湍流模拟等挑战性场景,为研究几何拓扑变化、材料非线性和多尺度效应等前沿问题提供了基准;最后,通过Hugging Face平台提供的持续评估框架,建立了可复现的机器学习方法比较标准,推动了物理感知模型架构的创新。
衍生相关工作
PLAID催生了多项突破性研究:MMGP方法通过网格变形与高斯过程结合,在Tensile2d上实现了0.15%的位移场预测误差;Vi-Transformer架构利用域分解策略处理VKI-LS59的激波不连续问题,显著提升了长程依赖建模能力;DAFNO算子则在2D_ElPlDynamics时间序列预测中验证了傅里叶域处理的优势。相关衍生工作包括Kabalan等提出的弹性变形降阶模型(O-MMGP)、Carpintero Perez基于最优传输的图核方法,以及Catalani发展的多尺度隐式神经表示(MARIO),这些成果均发表在NeurIPS等顶级会议。
以上内容由遇见数据集搜集并总结生成



