SimBench

Name: SimBench
Creator: 威斯康星大学麦迪逊分校
Published: 2024-08-22 04:52:32
License: 暂无描述

arXiv2024-08-22 更新2024-08-24 收录

下载链接：

https://github.com/uwsbel/SimBench

下载链接

链接失效反馈

官方服务：

资源简介：

SimBench是由威斯康星大学麦迪逊分校开发的，用于评估学生大型语言模型（S-LLMs）生成数字孪生（DTs）能力的基准数据集。该数据集包含102个示例，分为34个不同的物理系统，每个系统有三个演示，从简单到复杂。数据集的创建过程经过精心设计，由模拟专家手动策划。SimBench主要应用于虚拟测试领域，旨在解决自动生成高质量数字孪生模型的挑战。

SimBench is a benchmark dataset developed by the University of Wisconsin–Madison for evaluating the capability of student large language models (S-LLMs) to generate digital twins (DTs). It consists of 102 examples spanning 34 distinct physical systems, with three demonstrations for each system ranging from simple to complex. The dataset was developed through a meticulously designed process, with manual curation performed by simulation experts. Primarily applied in the field of virtual testing, SimBench aims to address the challenge of automatically generating high-quality digital twin models.

提供机构：

威斯康星大学麦迪逊分校

创建时间：

2024-08-22

原始信息汇总

SimBench 数据集概述

数据集描述

SimBench 是一个用于评估学生大型语言模型（S-LLMs）生成数字孪生（DTs）质量的基准测试。该基准测试通过多轮交互，利用基于规则的判断型大型语言模型（J-LLM）来评估 S-LLMs 生成的 DTs 质量，从而提供一致且受专家启发的评估协议。

应用场景

SimBench 主要用于以下几个方面的模拟测试：

多体动力学（MBD）：涉及多连杆臂、齿轮机构、曲柄滑块系统等典型机制的碰撞、接触和摩擦动力学。
有限元分析（FEA）：涉及电缆、梁、壳体、板等结构分析的振动、变形、应力和应变。
车辆动力学（VEH）：使用城市公交车、越野车辆（如 HMMWV、M113）、卡车（如 Kraz、MAN）和轿车来测试 S-LLM 的驾驶场景模拟能力。包括驾驶员、发动机、传动和轮胎模型，以及与传感器集成的高级控制策略。
传感器集成（SEN）：涉及 GPS、IMU、LiDAR 和摄像头传感器，用于测试 S-LLM 在自动驾驶车辆和机器人系统中的感知任务支持能力。
机器人动力学（RBT）：涉及 Turtlebot、Curiosity 和 VIPER 等机器人系统，以及颗粒动力学和可变形地形模拟，例如用于机器人和车辆越野操作的土壤接触模型（SCM）。

数据集结构

SimBench 包含 102 个演示任务，涉及 34 个不同类别的物理系统，涵盖从 MBD 到 RBT 的各个方面。这些任务涉及设置和逐步修改数字孪生，每个任务分为三个高质量的轮次，由模拟专家设计，逐渐增加复杂性，以便 J-LLM 提供对 S-LLM 能力的稳健评估。

评估流程

SimBench 的评估流程如下：

使用验证集对 J-LLM 进行校准，该验证集包含真实数据和生成数据的配对。
交互式优化提供给 J-LLM 的提示，以匹配专家提供的分数。
使用 J-LLM 根据生成的 DTs、真实 DTs 和 API 文档来评估 S-LLM。

搜集汇总

数据集介绍

构建方式

SimBench数据集的构建基于多轮交互的原则，旨在评估学生大型语言模型（S-LLMs）生成数字孪生（DTs）的能力。该数据集包含34个不同的物理系统，每个系统有3个由仿真专家精心设计的演示，这些演示从简单到复杂逐步增加，用于模拟真实世界中的分析任务。SimBench通过使用基于规则的判断LLM（J-LLM）来进行评分，J-LLM结合了预定义的规则和人工在环的指导，以对S-LLM生成的DTs进行评分，从而提供了一个一致且受专家启发的评估协议。J-LLM是特定于一个仿真器的，SimBench使用Chrono多物理仿真器作为背景，用于评估S-LLM生成用于多体动力学、有限元分析、车辆动力学、机器人动力学和传感器模拟的数字孪生。

特点

SimBench数据集的特点在于其多轮交互的设计，它允许S-LLMs通过多轮对话来生成和改进数字孪生。数据集涵盖了广泛的物理系统，包括多体动力学、车辆和机器人实验、有限元分析以及传感器使用。每个任务都分为三个回合，逐步增加复杂性，从而全面评估S-LLM的能力。此外，SimBench使用了一个基于规则的J-LLM来进行评分，这个J-LLM使用了专家演示的大数据集进行训练，能够提供关于S-LLM代码质量、准确性和效率的详细反馈。

使用方法

使用SimBench数据集时，首先需要将S-LLMs应用于34个不同的物理系统中，每个系统包含3个回合的任务。任务分为“模糊请求”和“精确请求”，分别测试S-LLM在不同指导水平下的表现。在多轮交互过程中，S-LLM需要逐步建立和修改数字孪生，以应对不断增加的复杂性。然后，基于规则的J-LLM根据S-LLM生成的数字孪生和专家编写的API文档进行评分。SimBench提供了三种评分模式：J-LLM Ref Doc、J-LLM Ref和J-LLM Doc，分别使用不同的信息和数据源来进行评估。通过这些模式，SimBench能够全面评估S-LLMs在生成数字孪生方面的能力，并为未来的模型改进提供指导。

背景与挑战

背景概述

SimBench 是一个旨在评估学生大型语言模型（S-LLMs）在生成可用于虚拟测试的模拟器中的数字孪生（DTs）的能力的基准。该基准由威斯康星大学麦迪逊分校的研究人员开发，包括 Jingquan Wang, Harry Zhang 等人。SimBench 允许对 S-LLMs 进行排名，根据其生成高质量 DTs 的能力。该基准通过比较超过 20 个开源和闭源 S-LLMs 来展示其功能。SimBench 采用多轮交互，并利用基于规则的判官 LLM（J-LLM）来为 S-LLM 生成的 DTs 赋分，从而提供一致且受专家启发的评估协议。J-LLM 是针对特定模拟器的，在这里提出的基准测试方法与 Chrono 多物理模拟器一起演示。Chrono 为评估 SLLM 在创建多体动力学、有限元分析、车辆动力学、机器人动力学和传感器模拟的数字孪生方面的能力提供了背景。该基准测试原则具有广泛适用性，并使评估 S-LLM 为其他模拟软件包生成数字孪生的能力成为可能。所有代码和数据可在 https://github.com/uwsbel/SimBench 上获得。

当前挑战

SimBench 面临的挑战包括：1) 所解决的领域问题的挑战，即生成高质量的 DTs 以模拟复杂的多物理现象；2) 构建过程中所遇到的挑战，例如，如何有效地评估 S-LLMs 的性能，以及如何设计一个能够提供一致且专家启发的评估协议的 J-LLM。

常用场景

经典使用场景

SimBench数据集被设计用来评估大型语言模型（LLMs）生成数字孪生（DTs）的能力，这些数字孪生可以被用于模拟器中的虚拟测试。SimBench通过多轮交互，利用基于规则的判别LLM（J-LLM）来评估生成的数字孪生的质量，从而提供一致且具有专家水平的评估协议。该数据集在Chrono多物理模拟器中展示了其评估方法，Chrono模拟器提供了用于评估LLM创建多体动力学、有限元分析、车辆动力学、机器人动力学和传感器模拟的数字孪生的背景。

衍生相关工作

SimBench数据集衍生了相关的经典工作，如AlphaCode和CodeT，这些工作评估生成的代码与隐藏测试用例的匹配程度，确保模型能够生成正确的代码。此外，SimBench还启发了MINT和PyBench等基准的创建，这些基准在多轮交互环境中评估LLMs的编码能力。SimBench的数据集和评估方法为LLMs在数字孪生和模拟领域的应用提供了重要的参考和指导。

数据集最近研究