FAITHDIAL

Name: FAITHDIAL
Creator: 阿尔伯塔大学
Published: 2022-10-24 03:08:40
License: 暂无描述

arXiv2022-10-24 更新2024-06-21 收录

下载链接：

https://mcgill-nlp.github.io/FaithDial/

下载链接

链接失效反馈

官方服务：

资源简介：

FAITHDIAL是一个由阿尔伯塔大学创建的新基准数据集，专注于无幻觉的信息寻求对话。该数据集通过编辑现有的Wizard of Wikipedia数据集中的幻觉响应而形成，包含约50,000个对话回合，覆盖5,500个对话。FAITHDIAL旨在通过提供高质量、无幻觉的对话数据，推动对话系统在信息准确性和对话质量方面的进步。数据集的应用领域包括训练对话模型以提高其信息准确性，以及评估模型在处理复杂对话场景时的性能。

FAITHDIAL is a novel benchmark dataset created by the University of Alberta, focusing on hallucination-free information-seeking conversations. It is constructed by editing hallucinatory responses from the existing Wizard of Wikipedia dataset, containing approximately 50,000 conversation turns across 5,500 dialogues. FAITHDIAL aims to advance the development of dialogue systems in terms of information accuracy and conversational quality by providing high-quality, hallucination-free dialogue data. Its application scenarios include training dialogue models to enhance their information accuracy, as well as evaluating model performance when handling complex conversational scenarios.

提供机构：

阿尔伯塔大学

创建时间：

2022-04-22

搜集汇总

数据集介绍

构建方式

在信息寻求对话领域，构建高质量数据集对于缓解模型幻觉现象至关重要。FAITHDIAL数据集的构建采用了数据中心的解决方案，通过对现有Wizard of Wikipedia（WOW）基准中的幻觉响应进行系统性编辑来实现。具体而言，研究团队通过众包标注平台Amazon Mechanical Turk雇佣经过严格筛选的标注人员，针对WOW数据集中超过60%存在幻觉的对话轮次进行修正。标注人员依据明确的准则，将不符合知识源支持的幻觉内容替换为基于给定知识片段的忠实表述，并在知识不足时引导模型承认无知。这一过程不仅保留了原始对话的连贯性，还通过对比编辑前后的响应，深入揭示了幻觉产生的语言学特征。最终，FAITHDIAL包含了约5万轮对话，覆盖5.5千次会话，其中忠实响应的比例从WOW的20.9%显著提升至94.4%。

使用方法

FAITHDIAL数据集在研究和应用中具有双重用途。首先，它可作为训练数据用于构建幻觉批评器，即一个能够判别响应是否忠实于知识源的分类模型。通过从FAITHDIAL中提取正例（忠实响应）并从WOW中提取负例（幻觉响应），训练出的FAITHCRITIC模型在多项自然语言理解任务中展现出卓越的零样本迁移能力。其次，该数据集为高质量对话生成提供了监督信号。研究人员可以基于FAITHDIAL训练各种先进的对话模型，如T5、GPT2等，并通过引入对比学习等辅助目标进一步优化生成结果的忠实度与抽象性。实验表明，使用FAITHDIAL训练的模型不仅在域内测试中显著降低幻觉率，还能在CMU-DoG、TopicalChat等其他知识对话数据集上实现有效的零样本泛化，从而推动可信赖对话系统的实际部署。

背景与挑战

背景概述

FAITHDIAL数据集由阿尔伯塔大学、Mila魁北克人工智能研究所、麦吉尔大学等机构的研究团队于2022年共同创建，旨在解决信息寻求对话中普遍存在的幻觉问题。该数据集以维基百科向导（Wizard of Wikipedia, WOW）基准为基础，通过人工编辑修正其中超过60%的幻觉响应，构建了一个包含约5万轮对话的高质量语料库。其核心研究聚焦于提升知识驱动对话系统的忠实性，确保生成内容严格基于给定知识源，从而推动可信赖对话系统的发展，对自然语言处理领域中的安全部署与事实一致性研究产生了深远影响。

当前挑战

FAITHDIAL致力于应对信息寻求对话中幻觉现象的严峻挑战，即模型生成缺乏知识支撑的虚构内容，这在高风险应用中可能导致严重误导。构建过程中的主要困难在于高效修正现有数据集中的大量幻觉响应，同时保持对话的连贯性与自然度。研究团队需设计精细的众包标注流程，确保编辑后的响应既忠实于知识片段，又具备抽象性与创造性，避免简单复制知识文本。此外，还需平衡数据规模与质量，在有限预算下实现大规模高质量标注，并验证修正后数据在跨领域任务中的泛化能力。

常用场景

经典使用场景

在信息寻求对话领域，FAITHDIAL数据集被广泛用于训练和评估能够生成忠实于知识源的自然语言响应的对话系统。该数据集通过编辑Wizard of Wikipedia（WOW）基准中的幻觉响应，构建了一个无幻觉的对话语料库，使得模型能够在保持对话流畅性和吸引力的同时，严格依据提供的知识片段进行回应。其经典使用场景包括模拟用户与虚拟助手之间的交互，其中助手需基于维基百科等结构化知识回答用户查询，从而推动可信对话系统的研究与开发。

解决学术问题

FAITHDIAL数据集主要解决了知识驱动对话系统中普遍存在的幻觉问题，即模型生成无法验证或事实错误的陈述。通过提供高质量、忠实于知识源的对话数据，该数据集使研究人员能够设计更可靠的训练方法，减少模型对噪声数据的依赖。其意义在于为对话系统的可信度设立了新标准，促进了在医疗、教育等高风险领域安全部署人工智能技术的探索，同时推动了自动评估指标如Q2和BERTScore的发展，以更精准地衡量生成内容的真实性。

实际应用

在实际应用中，FAITHDIAL数据集为开发企业级虚拟助手和客服系统提供了关键支持。基于该数据集训练的模型能够生成准确、信息丰富且符合上下文的响应，显著提升了用户体验和系统可靠性。例如，在在线教育平台中，助手可以依据课程知识库回答学生问题，避免传播错误信息；在客户服务场景中，系统能基于产品文档提供一致且可信的解答，减少人工干预需求，从而降低运营成本并增强服务效率。

数据集最近研究