SUMMEDITS
收藏arXiv2023-05-24 更新2024-06-21 收录
下载链接:
https://github.com/salesforce/factualNLG
下载链接
链接失效反馈官方服务:
资源简介:
SUMMEDITS是一个多领域的事实一致性检测基准,由Salesforce AI创建。该数据集包含6348个样本,覆盖法律、对话、学术、金融和销售等多个领域。数据集通过人工验证种子摘要的一致性,并生成多个编辑版本以测试模型对事实不一致性的检测能力。SUMMEDITS旨在评估和提高自然语言生成系统在复杂事实推理方面的可靠性,特别是在检测和解释摘要中的事实不一致性方面。
SUMMEDITS is a multi-domain factual consistency detection benchmark created by Salesforce AI. This dataset includes 6,348 samples spanning diverse domains such as law, conversational scenarios, academia, finance, and sales. It is constructed by first manually validating the consistency of seed summaries, then generating multiple edited variants to test models' capability to detect factual inconsistencies. SUMMEDITS aims to evaluate and enhance the reliability of natural language generation systems in complex factual reasoning, particularly in detecting and explaining factual inconsistencies within summaries.
提供机构:
Salesforce AI
创建时间:
2023-05-24
搜集汇总
数据集介绍

构建方式
在文本摘要领域,确保生成内容的真实性是自然语言处理系统可靠性的核心挑战。SUMMEDITS数据集采用了一种创新的三步构建协议,旨在高效生成高质量的真实性检测基准。首先,研究人员从十个多样化领域(如新闻、法律、学术和对话等)选取文档,并验证其种子摘要的真实性与流畅性,确保基础样本无瑕疵。随后,利用大型语言模型(如ChatGPT)对通过验证的种子摘要进行原子化编辑,生成大量经过细微修改的摘要版本,这些编辑可能引入或不引入事实性不一致。最后,由专业标注者评估每个编辑后的摘要,判断其是否保持事实一致,并将标注为“边界”的样本滤除以保证标签的可靠性。该协议显著降低了标注成本,同时通过聚焦于局部编辑简化了标注任务,从而实现了高达0.92的标注者间一致性。
特点
SUMMEDITS数据集在真实性评估基准中展现出若干突出特性。其核心优势在于高度的可重现性与标注质量,通过严格的协议设计过滤主观性强的样本,确保了标签的客观与稳定。该数据集覆盖了十个异质性强的文本领域,包括法律文书、莎士比亚戏剧、销售对话与科学论文等,这种多样性使其能够全面评估模型在不同语境和专业知识要求下的真实性推理能力。数据集中包含的事实不一致类型丰富且定义清晰,主要涵盖实体修改、反义词替换、虚构事实插入和否定词插入四类,为模型错误分析提供了细粒度视角。此外,数据集的构建极具成本效益,每个样本的标注成本仅为先前基准的二十分之一,为领域适应性基准的快速构建提供了可行范式。绝大多数当前的大型语言模型在该数据集上表现接近随机猜测,凸显了其在检测复杂事实不一致方面的挑战性。
使用方法
SUMMEDITS数据集主要用于评估和比较各类模型在文本摘要事实一致性检测任务上的性能。研究者通常将数据集构建为二元分类任务:给定一个文档及其对应的(可能经过编辑的)摘要,模型需要判断该摘要是否与文档事实一致。评估时,模型接收文档-摘要对作为输入,并输出一致性判断。性能指标通常采用平衡准确率,以应对数据集中正负样本分布接近平衡的特点。对于大型语言模型,可采用零样本提示方式直接进行评估,无需进行任务特定的微调,这有助于检验其开箱即用的真实性推理能力。同时,该数据集支持细粒度分析,研究者可以按领域或按不一致类型(如实体修改或反义词替换)拆解模型表现,从而深入理解模型的优势与薄弱环节。数据集的协议与代码已开源,允许实践者将其轻松适配至新的特定领域,以在模型部署前构建低成本、高可靠性的领域内评估基准。
背景与挑战
背景概述
SUMMEDITS数据集由Salesforce AI团队于2023年提出,旨在评估大型语言模型在文本摘要任务中检测事实不一致性的能力。该数据集基于多领域文本构建,涵盖新闻、法律、学术、对话等十个领域,通过人工验证的种子摘要与自动生成的编辑摘要相结合,形成高质量标注样本。其核心研究问题聚焦于提升事实一致性检测的评估精度,通过设计新颖的标注协议,显著降低了标注成本并提高了标注者间一致性,为自然语言生成系统的可靠性评估提供了重要基准。
当前挑战
SUMMEDITS数据集主要应对两大挑战:一是解决文本摘要领域事实一致性检测的评估难题,现有基准存在标签噪声与低可复现性问题,导致模型性能评估失真;二是构建过程中需确保标注的高质量与低成本平衡,通过编辑摘要生成与人工验证的协同设计,克服了传统标注方法对长篇文档深度理解的依赖,同时维持了任务对模型的挑战性,使基准能有效揭示模型在复杂事实推理上的缺陷。
常用场景
经典使用场景
在自然语言生成领域,文本摘要的事实一致性评估是确保信息准确性的核心环节。SUMMEDITS数据集通过构建多领域、高可复现的基准测试,为研究者提供了评估大型语言模型在检测摘要中事实不一致性能力的标准化工具。其经典使用场景在于系统性地测试模型在新闻、法律、对话、学术等十个不同文本领域中识别编辑引入的事实错误,从而揭示模型在复杂事实推理任务中的局限性。
解决学术问题
SUMMEDITS数据集主要解决了现有事实一致性基准测试中标签可靠性低、标注成本高以及领域覆盖有限等学术问题。通过引入基于原子编辑的协议,该数据集显著提升了标注者间一致性至约0.92,同时将每个样本的标注成本降低至先前基准的二十分之一。其意义在于为模型事实推理能力的精确评估提供了高质量、可扩展的基准,推动了更可靠的自然语言生成系统的发展。
衍生相关工作
SUMMEDITS的推出促进了多项相关研究工作的进展。基于其协议,后续研究可探索更细粒度的事实错误分类,如实体修改、反义词替换等具体错误类型的检测模型优化。同时,该数据集启发了对大型语言模型解释性能力的深入分析,例如模型在提供事实不一致解释时的可靠性评估,为构建具有透明推理过程的评估系统奠定了基础。
以上内容由遇见数据集搜集并总结生成



