SimBench
收藏arXiv2024-08-22 更新2024-08-24 收录
下载链接:
https://github.com/uwsbel/SimBench
下载链接
链接失效反馈官方服务:
资源简介:
SimBench是由威斯康星大学麦迪逊分校开发的,用于评估学生大型语言模型(S-LLMs)生成数字孪生(DTs)能力的基准数据集。该数据集包含102个示例,分为34个不同的物理系统,每个系统有三个演示,从简单到复杂。数据集的创建过程经过精心设计,由模拟专家手动策划。SimBench主要应用于虚拟测试领域,旨在解决自动生成高质量数字孪生模型的挑战。
SimBench is a benchmark dataset developed by the University of Wisconsin–Madison for evaluating the capability of student large language models (S-LLMs) to generate digital twins (DTs). It consists of 102 examples spanning 34 distinct physical systems, with three demonstrations for each system ranging from simple to complex. The dataset was developed through a meticulously designed process, with manual curation performed by simulation experts. Primarily applied in the field of virtual testing, SimBench aims to address the challenge of automatically generating high-quality digital twin models.
提供机构:
威斯康星大学麦迪逊分校
创建时间:
2024-08-22
原始信息汇总
SimBench 数据集概述
数据集描述
SimBench 是一个用于评估学生大型语言模型(S-LLMs)生成数字孪生(DTs)质量的基准测试。该基准测试通过多轮交互,利用基于规则的判断型大型语言模型(J-LLM)来评估 S-LLMs 生成的 DTs 质量,从而提供一致且受专家启发的评估协议。
应用场景
SimBench 主要用于以下几个方面的模拟测试:
- 多体动力学(MBD):涉及多连杆臂、齿轮机构、曲柄滑块系统等典型机制的碰撞、接触和摩擦动力学。
- 有限元分析(FEA):涉及电缆、梁、壳体、板等结构分析的振动、变形、应力和应变。
- 车辆动力学(VEH):使用城市公交车、越野车辆(如 HMMWV、M113)、卡车(如 Kraz、MAN)和轿车来测试 S-LLM 的驾驶场景模拟能力。包括驾驶员、发动机、传动和轮胎模型,以及与传感器集成的高级控制策略。
- 传感器集成(SEN):涉及 GPS、IMU、LiDAR 和摄像头传感器,用于测试 S-LLM 在自动驾驶车辆和机器人系统中的感知任务支持能力。
- 机器人动力学(RBT):涉及 Turtlebot、Curiosity 和 VIPER 等机器人系统,以及颗粒动力学和可变形地形模拟,例如用于机器人和车辆越野操作的土壤接触模型(SCM)。
数据集结构
SimBench 包含 102 个演示任务,涉及 34 个不同类别的物理系统,涵盖从 MBD 到 RBT 的各个方面。这些任务涉及设置和逐步修改数字孪生,每个任务分为三个高质量的轮次,由模拟专家设计,逐渐增加复杂性,以便 J-LLM 提供对 S-LLM 能力的稳健评估。
评估流程
SimBench 的评估流程如下:
- 使用验证集对 J-LLM 进行校准,该验证集包含真实数据和生成数据的配对。
- 交互式优化提供给 J-LLM 的提示,以匹配专家提供的分数。
- 使用 J-LLM 根据生成的 DTs、真实 DTs 和 API 文档来评估 S-LLM。
搜集汇总
数据集介绍

构建方式
SimBench数据集的构建基于多轮交互的原则,旨在评估学生大型语言模型(S-LLMs)生成数字孪生(DTs)的能力。该数据集包含34个不同的物理系统,每个系统有3个由仿真专家精心设计的演示,这些演示从简单到复杂逐步增加,用于模拟真实世界中的分析任务。SimBench通过使用基于规则的判断LLM(J-LLM)来进行评分,J-LLM结合了预定义的规则和人工在环的指导,以对S-LLM生成的DTs进行评分,从而提供了一个一致且受专家启发的评估协议。J-LLM是特定于一个仿真器的,SimBench使用Chrono多物理仿真器作为背景,用于评估S-LLM生成用于多体动力学、有限元分析、车辆动力学、机器人动力学和传感器模拟的数字孪生。
特点
SimBench数据集的特点在于其多轮交互的设计,它允许S-LLMs通过多轮对话来生成和改进数字孪生。数据集涵盖了广泛的物理系统,包括多体动力学、车辆和机器人实验、有限元分析以及传感器使用。每个任务都分为三个回合,逐步增加复杂性,从而全面评估S-LLM的能力。此外,SimBench使用了一个基于规则的J-LLM来进行评分,这个J-LLM使用了专家演示的大数据集进行训练,能够提供关于S-LLM代码质量、准确性和效率的详细反馈。
使用方法
使用SimBench数据集时,首先需要将S-LLMs应用于34个不同的物理系统中,每个系统包含3个回合的任务。任务分为“模糊请求”和“精确请求”,分别测试S-LLM在不同指导水平下的表现。在多轮交互过程中,S-LLM需要逐步建立和修改数字孪生,以应对不断增加的复杂性。然后,基于规则的J-LLM根据S-LLM生成的数字孪生和专家编写的API文档进行评分。SimBench提供了三种评分模式:J-LLM Ref Doc、J-LLM Ref和J-LLM Doc,分别使用不同的信息和数据源来进行评估。通过这些模式,SimBench能够全面评估S-LLMs在生成数字孪生方面的能力,并为未来的模型改进提供指导。
背景与挑战
背景概述
SimBench 是一个旨在评估学生大型语言模型(S-LLMs)在生成可用于虚拟测试的模拟器中的数字孪生(DTs)的能力的基准。该基准由威斯康星大学麦迪逊分校的研究人员开发,包括 Jingquan Wang, Harry Zhang 等人。SimBench 允许对 S-LLMs 进行排名,根据其生成高质量 DTs 的能力。该基准通过比较超过 20 个开源和闭源 S-LLMs 来展示其功能。SimBench 采用多轮交互,并利用基于规则的判官 LLM(J-LLM)来为 S-LLM 生成的 DTs 赋分,从而提供一致且受专家启发的评估协议。J-LLM 是针对特定模拟器的,在这里提出的基准测试方法与 Chrono 多物理模拟器一起演示。Chrono 为评估 SLLM 在创建多体动力学、有限元分析、车辆动力学、机器人动力学和传感器模拟的数字孪生方面的能力提供了背景。该基准测试原则具有广泛适用性,并使评估 S-LLM 为其他模拟软件包生成数字孪生的能力成为可能。所有代码和数据可在 https://github.com/uwsbel/SimBench 上获得。
当前挑战
SimBench 面临的挑战包括:1) 所解决的领域问题的挑战,即生成高质量的 DTs 以模拟复杂的多物理现象;2) 构建过程中所遇到的挑战,例如,如何有效地评估 S-LLMs 的性能,以及如何设计一个能够提供一致且专家启发的评估协议的 J-LLM。
常用场景
经典使用场景
SimBench数据集被设计用来评估大型语言模型(LLMs)生成数字孪生(DTs)的能力,这些数字孪生可以被用于模拟器中的虚拟测试。SimBench通过多轮交互,利用基于规则的判别LLM(J-LLM)来评估生成的数字孪生的质量,从而提供一致且具有专家水平的评估协议。该数据集在Chrono多物理模拟器中展示了其评估方法,Chrono模拟器提供了用于评估LLM创建多体动力学、有限元分析、车辆动力学、机器人动力学和传感器模拟的数字孪生的背景。
衍生相关工作
SimBench数据集衍生了相关的经典工作,如AlphaCode和CodeT,这些工作评估生成的代码与隐藏测试用例的匹配程度,确保模型能够生成正确的代码。此外,SimBench还启发了MINT和PyBench等基准的创建,这些基准在多轮交互环境中评估LLMs的编码能力。SimBench的数据集和评估方法为LLMs在数字孪生和模拟领域的应用提供了重要的参考和指导。
数据集最近研究
最新研究方向
SimBench数据集的最新研究方向主要集中在利用大型语言模型(LLM)生成高质量的数字孪生(DT),并评估其在模拟器中的表现。该数据集通过多轮交互,使用基于规则的评估LLM(J-LLM)来为S-LLM生成的DTs评分,提供了一种一致且专家级的评估协议。SimBench的评估方法广泛应用于多体动力学、有限元分析、车辆动力学、机器人动力学和传感器模拟等领域。此外,SimBench的设计使其可扩展到其他模拟器平台,如OpenFOAM或PyBullet。该数据集不仅为评估S-LLMs生成DTs的能力提供了基准,还为未来S-LLMs的改进提供了指导。
相关研究论文
- 1SimBench: A Rule-Based Multi-Turn Interaction Benchmark for Evaluating an LLM's Ability to Generate Digital Twins威斯康星大学麦迪逊分校 · 2024年
以上内容由遇见数据集搜集并总结生成



