针对车内对话系统的自动化事实基准测试数据集

Name: 针对车内对话系统的自动化事实基准测试数据集
Creator: 德国慕尼黑工业大学，宝马集团
Published: 2025-04-02 07:25:30
License: 暂无描述

arXiv2025-04-02 更新2025-04-08 收录

下载链接：

http://arxiv.org/abs/2504.01248v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为了评估车内对话系统的事实正确性而创建的，包含4914个由宝马专家从车辆用户手册中解析、注释并生成的问答对。数据集中的问题由人类生成，答案则由CarExpert系统提供。领域专家对这些答案进行了事实正确性评估。该数据集用于测试五种不同的基于大型语言模型的方法，这些方法结合了多种技术，如集成技术、多样化角色等，以减少虚构信息并提高答案的事实正确性。

This dataset was created to assess the factual correctness of in-vehicle dialogue systems. It comprises 4,914 question-answer (QA) pairs that were parsed, annotated, and generated by BMW experts from official vehicle user manuals. The questions within the dataset are human-generated, while the corresponding answers are provided by the CarExpert system. Domain experts have conducted factual correctness evaluations for these answers. This dataset is employed to test five distinct large language model (LLM)-based approaches, which integrate various techniques including ensemble methods and diverse role design to reduce hallucinations and enhance the factual correctness of the generated responses.

提供机构：

德国慕尼黑工业大学，宝马集团

创建时间：

2025-04-02

搜集汇总

数据集介绍

构建方式

该数据集的构建基于车辆用户手册的解析与标注，由领域专家手动创建问题-答案对。首先，将特定宝马SUV的用户手册解析为JSON文件，并将其内容划分为4914个段落文档。随后，专家针对每个文档生成相应的问题，确保每个问题仅对应一个文档。通过查询CarExpert系统获取答案，并由两位具有五年以上经验的专家对答案的事实一致性和相关性进行标注，最终形成高质量的数据集。

使用方法

该数据集主要用于评估车内对话系统的事实正确性。使用时需将系统生成的答案与检索到的文档段落共同输入评估框架，通过五种不同的LLM方法（包括输入输出提示、思维链提示等）进行自动化测试。评估结果可与专家标注的基准进行比较，计算事实相关性和一致性指标。最优实践表明，GPT-4结合输入输出提示方法能达到90%以上的评估准确率，平均响应时间为4.5秒。

背景与挑战

背景概述

针对车内对话系统的自动化事实基准测试数据集由慕尼黑工业大学与宝马集团的研究团队于2025年联合创建，旨在解决车载对话系统中大型语言模型(LLM)产生的幻觉问题。该数据集以车辆用户手册为基准真值，通过专家标注的问答对构建，专门用于评估车载问答系统CarExpert的事实准确性。其创新性在于采用多LLM集成评估框架，将人工专家评估与自动化测试相结合，显著提升了车载对话系统在事实一致性和相关性维度的评估效率，为智能座舱人机交互系统的可靠性验证提供了新范式。

当前挑战

该数据集面临的核心挑战体现在两个维度：领域适应性方面需克服车载术语特异性与常识推理的平衡，如混淆'待机状态'与'空闲状态'等专业术语；技术实现层面需解决多文档检索中的信息融合难题，例如系统错误合并无关段落导致事实矛盾。构建过程中的挑战包括：专家标注成本高昂，需设计重复验证机制确保标注一致性；实时性要求使得评估方法需在4.5秒内完成，对模型计算效率构成严峻考验；以及如何通过提示工程优化减少LLM固有幻觉对评估结果的影响。

常用场景

经典使用场景

在智能汽车领域，车内对话系统的准确性直接关系到用户体验与行车安全。该数据集通过构建基于车辆手册的问答对，为评估对话系统的事实正确性提供了标准化测试环境。研究人员利用大语言模型（LLMs）的集成技术，对系统响应的相关性、一致性进行自动化验证，显著提升了测试效率。这种评估范式特别适用于验证检索增强生成（RAG）架构的系统，如BMW开发的CarExpert系统，其90%以上的事实一致性准确率为行业树立了标杆。

解决学术问题

该数据集有效解决了大语言模型在车载场景中易产生的幻觉问题，即系统生成虚构或错误信息的现象。通过融合多模型投票、角色模拟等创新方法，将人工专家评估与自动化测试的吻合度提升至92%，为学术界提供了可量化的评估框架。其提出的双维度评估标准（事实相关性与一致性）填补了对话系统质量评估的理论空白，尤其针对汽车领域知识密集、术语专业的特性，为后续研究提供了关键方法论支撑。

实际应用

在汽车制造业中，该数据集已成功应用于BMW车载助手CarExpert的迭代优化。通过自动化测试框架，工程师能快速定位系统在座椅记忆功能、车道警告等具体模块的表述缺陷，将传统人工测试耗时降低80%。该方案同样适用于导航指令、娱乐系统交互等场景，其4.5秒的单次评估速度满足实时质检需求，目前已被拓展至多语言车型手册的跨文化适配测试。

数据集最近研究