five

SimBench|数字孪生数据集|大型语言模型数据集

收藏
arXiv2024-08-22 更新2024-08-24 收录
数字孪生
大型语言模型
下载链接:
https://github.com/uwsbel/SimBench
下载链接
链接失效反馈
资源简介:
SimBench是由威斯康星大学麦迪逊分校开发的,用于评估学生大型语言模型(S-LLMs)生成数字孪生(DTs)能力的基准数据集。该数据集包含102个示例,分为34个不同的物理系统,每个系统有三个演示,从简单到复杂。数据集的创建过程经过精心设计,由模拟专家手动策划。SimBench主要应用于虚拟测试领域,旨在解决自动生成高质量数字孪生模型的挑战。
提供机构:
威斯康星大学麦迪逊分校
创建时间:
2024-08-22
原始信息汇总

SimBench 数据集概述

数据集描述

SimBench 是一个用于评估学生大型语言模型(S-LLMs)生成数字孪生(DTs)质量的基准测试。该基准测试通过多轮交互,利用基于规则的判断型大型语言模型(J-LLM)来评估 S-LLMs 生成的 DTs 质量,从而提供一致且受专家启发的评估协议。

应用场景

SimBench 主要用于以下几个方面的模拟测试:

  • 多体动力学(MBD):涉及多连杆臂、齿轮机构、曲柄滑块系统等典型机制的碰撞、接触和摩擦动力学。
  • 有限元分析(FEA):涉及电缆、梁、壳体、板等结构分析的振动、变形、应力和应变。
  • 车辆动力学(VEH):使用城市公交车、越野车辆(如 HMMWV、M113)、卡车(如 Kraz、MAN)和轿车来测试 S-LLM 的驾驶场景模拟能力。包括驾驶员、发动机、传动和轮胎模型,以及与传感器集成的高级控制策略。
  • 传感器集成(SEN):涉及 GPS、IMU、LiDAR 和摄像头传感器,用于测试 S-LLM 在自动驾驶车辆和机器人系统中的感知任务支持能力。
  • 机器人动力学(RBT):涉及 Turtlebot、Curiosity 和 VIPER 等机器人系统,以及颗粒动力学和可变形地形模拟,例如用于机器人和车辆越野操作的土壤接触模型(SCM)。

数据集结构

SimBench 包含 102 个演示任务,涉及 34 个不同类别的物理系统,涵盖从 MBD 到 RBT 的各个方面。这些任务涉及设置和逐步修改数字孪生,每个任务分为三个高质量的轮次,由模拟专家设计,逐渐增加复杂性,以便 J-LLM 提供对 S-LLM 能力的稳健评估。

评估流程

SimBench 的评估流程如下:

  1. 使用验证集对 J-LLM 进行校准,该验证集包含真实数据和生成数据的配对。
  2. 交互式优化提供给 J-LLM 的提示,以匹配专家提供的分数。
  3. 使用 J-LLM 根据生成的 DTs、真实 DTs 和 API 文档来评估 S-LLM。
AI搜集汇总
数据集介绍
main_image_url
构建方式
SimBench数据集的构建基于多轮交互的原则,旨在评估学生大型语言模型(S-LLMs)生成数字孪生(DTs)的能力。该数据集包含34个不同的物理系统,每个系统有3个由仿真专家精心设计的演示,这些演示从简单到复杂逐步增加,用于模拟真实世界中的分析任务。SimBench通过使用基于规则的判断LLM(J-LLM)来进行评分,J-LLM结合了预定义的规则和人工在环的指导,以对S-LLM生成的DTs进行评分,从而提供了一个一致且受专家启发的评估协议。J-LLM是特定于一个仿真器的,SimBench使用Chrono多物理仿真器作为背景,用于评估S-LLM生成用于多体动力学、有限元分析、车辆动力学、机器人动力学和传感器模拟的数字孪生。
特点
SimBench数据集的特点在于其多轮交互的设计,它允许S-LLMs通过多轮对话来生成和改进数字孪生。数据集涵盖了广泛的物理系统,包括多体动力学、车辆和机器人实验、有限元分析以及传感器使用。每个任务都分为三个回合,逐步增加复杂性,从而全面评估S-LLM的能力。此外,SimBench使用了一个基于规则的J-LLM来进行评分,这个J-LLM使用了专家演示的大数据集进行训练,能够提供关于S-LLM代码质量、准确性和效率的详细反馈。
使用方法
使用SimBench数据集时,首先需要将S-LLMs应用于34个不同的物理系统中,每个系统包含3个回合的任务。任务分为“模糊请求”和“精确请求”,分别测试S-LLM在不同指导水平下的表现。在多轮交互过程中,S-LLM需要逐步建立和修改数字孪生,以应对不断增加的复杂性。然后,基于规则的J-LLM根据S-LLM生成的数字孪生和专家编写的API文档进行评分。SimBench提供了三种评分模式:J-LLM Ref Doc、J-LLM Ref和J-LLM Doc,分别使用不同的信息和数据源来进行评估。通过这些模式,SimBench能够全面评估S-LLMs在生成数字孪生方面的能力,并为未来的模型改进提供指导。
背景与挑战
背景概述
SimBench 是一个旨在评估学生大型语言模型(S-LLMs)在生成可用于虚拟测试的模拟器中的数字孪生(DTs)的能力的基准。该基准由威斯康星大学麦迪逊分校的研究人员开发,包括 Jingquan Wang, Harry Zhang 等人。SimBench 允许对 S-LLMs 进行排名,根据其生成高质量 DTs 的能力。该基准通过比较超过 20 个开源和闭源 S-LLMs 来展示其功能。SimBench 采用多轮交互,并利用基于规则的判官 LLM(J-LLM)来为 S-LLM 生成的 DTs 赋分,从而提供一致且受专家启发的评估协议。J-LLM 是针对特定模拟器的,在这里提出的基准测试方法与 Chrono 多物理模拟器一起演示。Chrono 为评估 SLLM 在创建多体动力学、有限元分析、车辆动力学、机器人动力学和传感器模拟的数字孪生方面的能力提供了背景。该基准测试原则具有广泛适用性,并使评估 S-LLM 为其他模拟软件包生成数字孪生的能力成为可能。所有代码和数据可在 https://github.com/uwsbel/SimBench 上获得。
当前挑战
SimBench 面临的挑战包括:1) 所解决的领域问题的挑战,即生成高质量的 DTs 以模拟复杂的多物理现象;2) 构建过程中所遇到的挑战,例如,如何有效地评估 S-LLMs 的性能,以及如何设计一个能够提供一致且专家启发的评估协议的 J-LLM。
常用场景
经典使用场景
SimBench数据集被设计用来评估大型语言模型(LLMs)生成数字孪生(DTs)的能力,这些数字孪生可以被用于模拟器中的虚拟测试。SimBench通过多轮交互,利用基于规则的判别LLM(J-LLM)来评估生成的数字孪生的质量,从而提供一致且具有专家水平的评估协议。该数据集在Chrono多物理模拟器中展示了其评估方法,Chrono模拟器提供了用于评估LLM创建多体动力学、有限元分析、车辆动力学、机器人动力学和传感器模拟的数字孪生的背景。
衍生相关工作
SimBench数据集衍生了相关的经典工作,如AlphaCode和CodeT,这些工作评估生成的代码与隐藏测试用例的匹配程度,确保模型能够生成正确的代码。此外,SimBench还启发了MINT和PyBench等基准的创建,这些基准在多轮交互环境中评估LLMs的编码能力。SimBench的数据集和评估方法为LLMs在数字孪生和模拟领域的应用提供了重要的参考和指导。
数据集最近研究
最新研究方向
SimBench数据集的最新研究方向主要集中在利用大型语言模型(LLM)生成高质量的数字孪生(DT),并评估其在模拟器中的表现。该数据集通过多轮交互,使用基于规则的评估LLM(J-LLM)来为S-LLM生成的DTs评分,提供了一种一致且专家级的评估协议。SimBench的评估方法广泛应用于多体动力学、有限元分析、车辆动力学、机器人动力学和传感器模拟等领域。此外,SimBench的设计使其可扩展到其他模拟器平台,如OpenFOAM或PyBullet。该数据集不仅为评估S-LLMs生成DTs的能力提供了基准,还为未来S-LLMs的改进提供了指导。
相关研究论文
  • 1
    SimBench: A Rule-Based Multi-Turn Interaction Benchmark for Evaluating an LLM's Ability to Generate Digital Twins威斯康星大学麦迪逊分校 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

CMNEE(Chinese Military News Event Extraction dataset)

CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。

github 收录