BEGIN
收藏arXiv2022-06-28 更新2024-06-21 收录
下载链接:
https://github.com/google/BEGIN-dataset
下载链接
链接失效反馈官方服务:
资源简介:
BEGIN数据集是由阿尔伯塔大学、谷歌研究院和纽约大学合作创建的,包含12000个对话回合,这些对话由神经对话系统生成,训练于三个知识驱动的对话语料库。该数据集用于评估对话系统生成响应的可归因性,即响应是否能够完全由提供的背景信息支持。BEGIN数据集的应用领域主要集中在提高知识驱动对话系统的评估标准,旨在解决现有评估指标在区分可归因和不可归因响应方面的不足,推动开发更复杂和鲁棒的评估指标。
提供机构:
阿尔伯塔大学, 加拿大; 谷歌研究院, 美国; 纽约大学, 美国
创建时间:
2021-05-01
搜集汇总
数据集介绍

构建方式
在大规模语言模型驱动的知识型对话系统中,生成的回复虽流畅却时常偏离可归因的知识源,这一问题催生了对可靠评估基准的迫切需求。为此,BEGIN数据集应运而生,其构建过程严谨而系统。研究团队选取了四种具有代表性的对话模型——GPT2、T5、DoHA与CTRL-DIALOG,分别在三类知识型对话语料库(Wizard of Wikipedia、CMU-DoG、TopicalChat)上进行训练,从而生成共计12,288个对话轮次的回复样本。随后,通过精心设计的标注协议,邀请专业标注员将每个回复划分为完全可归因、不可归因或通用性三类,每份样本由三位标注员独立评判,最终以多数投票确定标签,确保了标注的高质量与一致性。
特点
BEGIN数据集的核心特质在于其精细的类别划分与丰富的多样性。它并非简单区分对错,而是引入“通用性”这一中间类别,用以捕捉诸如“我不太确定”这类虽无信息量但在对话中具有社交功能的自然回应,从而避免了将此类表达与有害的幻觉内容混为一谈。数据覆盖了从高抽取性到高抽象性的多种回复风格,且知识源长度差异显著(从27词到271词不等),这为评估指标提供了严苛的测试场景。尤为突出的是,该数据集揭示了当前自动评估指标普遍存在的缺陷:它们严重依赖词汇重叠这一虚假相关性,在应对抽象性可归因回复或长知识源场景时表现欠佳,难以真正捕捉归因的深层语义。
使用方法
BEGIN被设计为一个纯测试基准,不包含训练集,其使用聚焦于元评估——即衡量各类自动评估指标在归因判断上的真实效力。使用者可将该数据集的12,288条带标签样本作为标准答案,依次计算词重叠指标(如BLEU、ROUGE)、语义相似度指标(如BERTScore、BARTScore)、基于问答的指标(如Q2)以及基于自然语言推理的分类器(如微调后的RoBERTa)的得分分布,并与人工标签进行对比。通过分析不同类别、不同抽象程度及不同知识源长度下的表现差异,研究者能够诊断现有指标的脆弱性,进而开发更具鲁棒性的归因评估方法。数据集已公开于GitHub,便于社区复现与拓展。
背景与挑战
背景概述
在神经语言模型驱动的开放域对话系统蓬勃发展的背景下,知识驱动型对话系统面临着一个核心困境:生成的回复虽流畅自然,却时常包含无法从给定知识源中得到支持的陈述,即所谓的'幻觉'现象。为系统性地评估这一问题,来自阿尔伯塔大学、谷歌研究院及纽约大学的研究团队于2022年共同构建了BEGIN基准(Benchmark for Evaluation of Grounded INteraction)。该数据集包含约1.2万条由四种神经对话系统在三个知识驱动对话语料上生成的对话轮次,并配以人工标注,依据回复是否完全可归因于背景知识将其划分为完全可归因、不可归因及通用三类。BEGIN的诞生为评估归因度量标准提供了大规模、高质量的测试平台,深刻揭示了现有自动评估指标在识别归因错误方面的局限性,对推动可信对话系统的研究具有里程碑式的影响。
当前挑战
BEGIN基准的核心挑战源于两个层面。首先,在领域问题层面,现有自动评估指标普遍依赖虚假相关性,例如过度依赖词汇重叠度来判断归因性,导致高度抽象但可归因的回复得分偏低,而具有高词汇重叠但不可归因的回复却被误判为可归因;同时,这些指标在知识源较长时性能显著下降,难以在分布偏移下保持鲁棒性。其次,在构建过程中,研究团队面临多重困难:如何设计精细的三分类体系(完全可归因、不可归因、通用)以准确捕捉归因的微妙差异;如何通过对抗性数据增强技术(如实体替换、否定操作)生成具有挑战性的不可归因样本,从而有效训练分类器;以及如何确保人工标注的高质量与一致性,最终通过严格的培训与质量监控流程实现了0.7的Krippendorff alpha信度。
常用场景
经典使用场景
在知识驱动的对话系统领域,评估生成回复是否忠实于背景知识是核心挑战之一。BEGIN数据集应运而生,其经典使用场景在于作为元评估基准,系统性地衡量各类自动评估指标在检测对话回复归因性方面的表现。通过提供涵盖完全可归因、不可归因及通用性三类标签的万余条对话样本,BEGIN为研究者构建了一个标准化的测试平台,用以检验既有指标是否能够准确区分忠实与虚构的回复内容。
实际应用
在真实部署场景中,BEGIN数据集为风险敏感领域(如医疗咨询、智能教育)的对话系统提供了关键的质量保障工具。通过揭示模型在长知识源场景下更易产生不可归因回复的规律,该基准指导开发者针对性优化系统在复杂信息环境中的表现。同时,BEGIN的分类体系促使系统设计者重视通用性回复的价值,鼓励模型在不确定时主动表达无知而非编造信息,从而有效降低虚假信息传播风险。
衍生相关工作
BEGIN数据集催生了一系列高质量的相关研究工作,包括基于对抗训练增强的归因分类器(BEGIN-ADVERSARIAL),该分类器通过实体替换、否定化等扰动策略生成具有挑战性的训练样本,显著优于传统NLI模型。此外,该基准启发了对评估指标鲁棒性的深入分析,推动了Q2等问答式指标的发展,以及FactDial等忠实对话基准的构建。这些衍生工作共同构成了对话归因评估的生态系统。
以上内容由遇见数据集搜集并总结生成



