five

SummExecEdit

收藏
arXiv2024-12-18 更新2024-12-20 收录
下载链接:
https://huggingface.co/datasets/Salesforce/summexecedit
下载链接
链接失效反馈
官方服务:
资源简介:
SummExecEdit是由Salesforce AI Research创建的一个用于评估摘要生成中事实一致性的基准数据集。该数据集包含4241个样本,涵盖新闻、播客、法案、销售电话等10个领域,旨在通过可执行编辑生成复杂且可解释的编辑,以检测和解释事实错误。数据集的创建过程涉及使用GPT4-Turbo和Claude3-Opus模型生成编辑,并通过人工注释进行验证。SummExecEdit主要用于评估大型语言模型在事实一致性检测和解释方面的能力,旨在解决摘要生成中的事实幻觉问题。

SummExecEdit is a benchmark dataset developed by Salesforce AI Research for evaluating factual consistency in automatic summarization. It comprises 4,241 samples spanning 10 domains including news, podcasts, legislative bills, sales calls, and other categories. Its core goal is to detect and explain factual errors by generating complex, interpretable edits through executable edit operations. The dataset construction process employed GPT-4 Turbo and Claude 3 Opus models to generate candidate edits, which were then validated via manual annotation. SummExecEdit is primarily used to assess the capabilities of large language models (LLMs) in factual consistency detection and explanation, aiming to address the issue of factual hallucinations in summarization tasks.
提供机构:
Salesforce AI 研究
创建时间:
2024-12-18
原始信息汇总

SummExecEdit 数据集概述

基本信息

  • 许可证: CC BY 4.0
  • 任务类别:
    • 文本分类
    • 摘要生成
  • 语言: 英语
  • 标签:
    • 推理
    • 生物学
    • 金融
    • 法律
    • 医学
  • 数据集大小: 1K<n<10K
  • 数据集名称: SummExecEdit

数据集描述

SummExecEdit 是一个用于评估模型检测和解释摘要中事实一致性能力的基准数据集。该数据集基于之前的基准 SummEdits 构建,包含了新的不一致和具有挑战性的摘要,这些摘要是通过可执行编辑机制生成的。

数据集内容

  • 样本数量: 4,241 个样本
  • 领域数量: 10 个领域
  • 每个样本的条目:
    • sample_id: 样本的唯一ID
    • doc_id: 文档的唯一ID
    • doc: 输入文档
    • original_summary: 与文档事实一致或不一致的原始摘要
    • original_text: 在原始摘要中被替换以引入事实不一致的文本
    • replace_text: 替换 original_text 以引入事实不一致的文本
    • edited_summary: 与文档事实一致或不一致的编辑后摘要
    • explanation: 如果存在事实不一致,则提供解释
    • domain: 文档和摘要所属的领域
    • model: 用于可执行编辑的模型,生成 original_textreplace_textexplanation
    • edit_type: 如果摘要事实一致则为 "summedits",否则为 "summexecedit"

引用

如果使用该数据集,请引用以下论文: bibtex @misc{thorat2024summexeceditfactualconsistencybenchmark, title={SummExecEdit: A Factual Consistency Benchmark in Summarization with Executable Edits}, author={Onkar Thorat and Philippe Laban and Chien-Sheng Wu}, year={2024}, eprint={2412.13378}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2412.13378}, }

搜集汇总
数据集介绍
main_image_url
构建方式
SummExecEdit数据集通过引入可执行编辑(executable edits)的方式构建,旨在生成更具挑战性和可解释性的摘要事实一致性评估基准。该数据集基于Laban等人(2023)的研究,利用大型语言模型(LLMs)生成编辑后的摘要,并通过可执行编辑技术精确替换文本中的特定子串,从而引入事实不一致性。具体而言,研究者从Laban等人(2023)的原始数据集中选取了100对(文档,摘要)样本,使用GPT4-Turbo、Claude3-Opus和GPT3.5-Turbo模型生成编辑后的摘要,并手动标注这些编辑的质量和复杂性。最终,数据集包含2,121个事实不一致的摘要,并与SummEdits基准中的2,120个事实一致的摘要相结合,形成了一个包含4,241个样本的综合基准。
特点
SummExecEdit数据集的主要特点在于其编辑方式的精细性和复杂性。与传统的广泛编辑不同,可执行编辑通过精确替换文本中的特定子串,生成更具挑战性的事实不一致性样本。这种编辑方式不仅提高了编辑的复杂性,还增强了编辑的可解释性,使得模型能够更集中地处理复杂的编辑任务。此外,数据集涵盖了多个领域,包括新闻、播客、法案、销售电话等,确保了样本的多样性和广泛性。通过手动标注和过滤机制,数据集确保了编辑的高质量和可控性,为模型的事实一致性检测和解释提供了可靠的评估基准。
使用方法
SummExecEdit数据集主要用于评估大型语言模型在事实一致性检测和解释任务中的表现。研究者可以通过两种提示方式对模型进行评估:一是检测并解释错误(D&E),模型需要判断摘要是否与文档事实一致,并解释不一致的原因;二是解释错误(E|D),在已知摘要存在事实错误的情况下,模型需要解释错误的具体原因。通过这些提示,研究者可以评估模型在事实检测和解释任务中的准确性和解释能力。此外,数据集还可用于模型训练和数据增强,帮助模型更好地理解和处理复杂的事实不一致性问题。
背景与挑战
背景概述
SummExecEdit数据集由Salesforce AI Research团队于2024年推出,旨在解决文本摘要中事实一致性检测的挑战。该数据集的核心研究问题是如何通过可执行编辑(executable edits)生成更具挑战性和可解释性的基准,以评估模型在检测事实错误和提供准确解释方面的能力。SummExecEdit扩展了先前的SummEdits基准,通过隔离和替换文本中的特定子字符串来引入事实不一致性,从而生成更为复杂和精细的编辑。该数据集的推出对自然语言处理领域,尤其是大语言模型(LLMs)在事实一致性检测和解释方面的评估具有重要意义。
当前挑战
SummExecEdit数据集面临的挑战主要集中在两个方面。首先,构建过程中需要生成复杂且可控的编辑,以避免过于简单或广泛的编辑,这要求编辑过程具有高度的精细性和复杂性。其次,现有的模型在检测事实错误和提供解释方面表现不佳,尤其是联合任务的得分较低,表明模型在理解和解释事实不一致性方面仍存在显著不足。此外,数据集的构建还需要确保编辑的可解释性和挑战性,以提高评估的准确性和鲁棒性。
常用场景
经典使用场景
SummExecEdit数据集的经典使用场景主要集中在文本摘要任务中的事实一致性评估。通过引入可执行编辑(executable edits),该数据集能够生成更具挑战性和可解释性的样本,帮助模型在检测事实错误的同时提供准确的解释。研究者可以利用该数据集评估模型在事实一致性检测和解释任务中的表现,尤其是在复杂编辑场景下的表现。
解决学术问题
SummExecEdit数据集解决了现有事实一致性评估基准中存在的挑战性不足和解释性缺失的问题。通过引入可执行编辑,该数据集能够生成更为复杂和精细的编辑样本,使得模型在检测事实错误时能够提供更高质量的解释。这不仅提升了评估的难度,还为模型提供了更清晰的反馈,推动了事实一致性检测技术的发展。
衍生相关工作
SummExecEdit数据集的提出激发了大量相关研究工作,尤其是在事实一致性检测和解释领域。许多研究者基于该数据集开发了新的评估方法和模型,进一步提升了模型在事实一致性任务中的表现。此外,该数据集还推动了可执行编辑技术在数据增强和模型训练中的应用,为文本生成领域的研究提供了新的思路和工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作