SimBench|数字孪生数据集|大型语言模型数据集
收藏SimBench 数据集概述
数据集描述
SimBench 是一个用于评估学生大型语言模型(S-LLMs)生成数字孪生(DTs)质量的基准测试。该基准测试通过多轮交互,利用基于规则的判断型大型语言模型(J-LLM)来评估 S-LLMs 生成的 DTs 质量,从而提供一致且受专家启发的评估协议。
应用场景
SimBench 主要用于以下几个方面的模拟测试:
- 多体动力学(MBD):涉及多连杆臂、齿轮机构、曲柄滑块系统等典型机制的碰撞、接触和摩擦动力学。
- 有限元分析(FEA):涉及电缆、梁、壳体、板等结构分析的振动、变形、应力和应变。
- 车辆动力学(VEH):使用城市公交车、越野车辆(如 HMMWV、M113)、卡车(如 Kraz、MAN)和轿车来测试 S-LLM 的驾驶场景模拟能力。包括驾驶员、发动机、传动和轮胎模型,以及与传感器集成的高级控制策略。
- 传感器集成(SEN):涉及 GPS、IMU、LiDAR 和摄像头传感器,用于测试 S-LLM 在自动驾驶车辆和机器人系统中的感知任务支持能力。
- 机器人动力学(RBT):涉及 Turtlebot、Curiosity 和 VIPER 等机器人系统,以及颗粒动力学和可变形地形模拟,例如用于机器人和车辆越野操作的土壤接触模型(SCM)。
数据集结构
SimBench 包含 102 个演示任务,涉及 34 个不同类别的物理系统,涵盖从 MBD 到 RBT 的各个方面。这些任务涉及设置和逐步修改数字孪生,每个任务分为三个高质量的轮次,由模拟专家设计,逐渐增加复杂性,以便 J-LLM 提供对 S-LLM 能力的稳健评估。
评估流程
SimBench 的评估流程如下:
- 使用验证集对 J-LLM 进行校准,该验证集包含真实数据和生成数据的配对。
- 交互式优化提供给 J-LLM 的提示,以匹配专家提供的分数。
- 使用 J-LLM 根据生成的 DTs、真实 DTs 和 API 文档来评估 S-LLM。

- 1SimBench: A Rule-Based Multi-Turn Interaction Benchmark for Evaluating an LLM's Ability to Generate Digital Twins威斯康星大学麦迪逊分校 · 2024年
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录
MedChain
MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。
arXiv 收录
Plant-Diseases
Dataset for Plant Diseases containg variours Plant Disease
kaggle 收录
CMNEE(Chinese Military News Event Extraction dataset)
CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。
github 收录