five

SIMSHIFT

收藏
arXiv2025-06-14 更新2025-06-17 收录
下载链接:
https://huggingface.co/datasets/simshift/SIMSHIFT_data
下载链接
链接失效反馈
官方服务:
资源简介:
SIMSHIFT数据集是一个基准数据集和评估套件,包含四个工业仿真任务:热轧、板材成形、电动机设计和散热器设计。这些数据集是在真实模拟环境中生成的,并预先定义了分布偏移。数据集包括三个级别的分布偏移难度:容易、中等和困难。每个数据集都包括三个级别的分布偏移难度,反映了参数空间中领域差距的大小。

The SIMSHIFT dataset is a benchmark dataset and evaluation suite comprising four industrial simulation tasks: hot rolling, sheet metal forming, motor design, and heat sink design. These datasets are generated in realistic simulation environments with pre-defined distribution shifts. The suite includes three levels of distribution shift difficulty: easy, medium, and hard. Each dataset features these three difficulty levels, which reflect the magnitude of the domain gap in the parameter space.
提供机构:
林茨工业大学人工智能实验室和机器学习研究所, 林茨机电中心有限公司, Emmi AI GmbH
创建时间:
2025-06-14
原始信息汇总

SIMSHIFT数据集概述

基本信息

  • 数据集名称: SIMSHIFT data
  • 许可证: MIT
  • 关联论文: NeurIPS 2025 Datasets & Benchmarks Track Submission

数据集描述

  • 用途: 用于评估神经代理模型在分布变化下的适应能力
  • 特点: 包含基准测试数据,用于研究神经代理模型对分布变化的适应性

相关资源

  • 代码库: 将在论文发表时发布完整训练和评估流程的配套代码库
搜集汇总
数据集介绍
main_image_url
构建方式
SIMSHIFT数据集通过结合工业仿真任务构建,涵盖了热轧、金属板成型、电机设计和散热器设计四个关键领域。数据生成采用商业有限元软件Abaqus、开源仿真软件HOTINT和CFD工具OpenFoam 9,确保仿真数据的多样性和工业相关性。每个任务的参数空间被划分为不重叠的源域和目标域,通过预设不同难度级别的分布偏移(简单、中等、困难)来模拟实际应用中的域适应场景。数据集包含结构化网格和非结构化网格,以适应不同工业仿真需求。
特点
SIMSHIFT数据集的核心特点在于其工业相关性和参数化设计。数据集覆盖了从2D到3D的多种仿真场景,且所有仿真行为完全由输入参数决定,确保了数据的可解释性和可扩展性。每个任务包含三个难度级别的分布偏移,通过调整关键参数的范围来模拟不同程度的域差距。数据集还提供了丰富的输出字段,如塑性应变、应力分布、温度场等,为域适应算法提供了全面的评估基准。此外,数据集的规模从数千到数百万节点不等,能够满足不同计算资源下的研究需求。
使用方法
SIMSHIFT数据集的使用方法主要包括三个步骤:首先,研究者需要加载源域和目标域的数据,其中源域包含完整的输入-输出对,而目标域仅包含输入参数。其次,可以采用无监督域适应(UDA)方法,如Deep Coral、CMD和DANN,结合条件网络和神经代理模型进行训练。训练过程中,源域数据用于监督学习,目标域数据用于域适应损失计算。最后,通过无监督模型选择策略(如IWV或DEV)评估模型在目标域上的性能。数据集还提供了详细的评估指标,包括归一化RMSE和位移误差,便于全面比较不同算法的表现。
背景与挑战
背景概述
SIMSHIFT数据集由奥地利林茨约翰内斯开普勒大学(JKU Linz)的LIT AI实验室和机器学习研究所于2025年6月推出,旨在解决偏微分方程(PDE)神经代理模型在未见问题配置(如新材料类型或结构尺寸)下性能显著下降的问题。该数据集包含四个工业仿真任务:热轧、钣金成形、电机设计和散热器设计,为领域自适应(DA)技术在仿真中的应用提供了系统评估基准。通过结合源配置的完整仿真数据和目标配置的参数描述,SIMSHIFT推动了神经代理模型在工业相关场景分布偏移下的鲁棒性研究,填补了该领域系统性基准测试的空白。
当前挑战
SIMSHIFT数据集面临的核心挑战体现在两个层面:1) 领域问题方面,需解决神经代理模型在参数空间分布偏移时的泛化难题,如热轧过程中不同厚度缩减率导致的塑性应变预测偏差;2) 构建过程方面,挑战包括工业仿真数据的高计算成本(如散热器设计CFD仿真单次耗时11-18小时)、多物理场耦合建模的复杂性(如热轧过程的热-力耦合),以及非结构化网格(如电机设计的转子拓扑)带来的数据处理困难。此外,定义可量化的域间差异度(分easy/medium/hard三级)需平衡物理意义与计算可行性。
常用场景
经典使用场景
SIMSHIFT数据集作为工业仿真领域的重要基准,主要应用于评估神经代理模型在分布偏移场景下的适应能力。该数据集包含热轧、金属板材成形、电机设计和散热器设计四个典型工业仿真任务,为研究者在参数化描述与真实仿真数据间建立映射关系提供了标准化测试平台。在经典使用场景中,研究者利用源域的全参数-仿真数据对和目标域的部分参数数据,通过域适应方法训练模型预测目标域的物理场分布。
解决学术问题
SIMSHIFT有效解决了工程仿真中神经代理模型的分布偏移泛化难题。传统方法在新材料类型或结构尺寸等未见配置下性能显著下降,而该数据集通过提供参数空间划分的源域-目标域对,支持无监督域适应技术在物理仿真中的系统评估。其核心学术价值在于:1) 首次建立了工业仿真中神经算子与域适应方法的联合研究框架;2) 揭示了参数空间非重叠划分导致的域偏移特性;3) 为开发具有离散不变性的鲁棒神经代理提供了标准测试环境。
衍生相关工作
该数据集已衍生出三类重要研究方向:1) 基于图神经网络的工业网格处理方法,如GraphSAGE在非结构化网格上的扩展应用;2) 神经算子架构创新,如Transolver将Transformer引入PDE求解,UPT实现大规模隐式场建模;3) 域适应理论发展,包括重要性加权验证(IWV)和深度嵌入验证(DEV)等无监督模型选择策略的改进。相关成果发表在NeurIPS、ICLR等顶级会议,推动了物理启发的机器学习方法在工业场景的落地。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作