XSum Hallucination Annotations

github2024-04-10 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/xsum_hallucination_annotations

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含XSum摘要的忠实度和事实性注释，用于评估神经抽象摘要模型产生的幻觉内容。数据集通过大规模的人工评估，帮助理解不同神经抽象摘要系统产生的幻觉类型，并提供了一种新的评估方法，以提高神经摘要的质量。

This dataset contains annotations for faithfulness and factuality of XSum summaries, designed to evaluate hallucinated content generated by neural abstractive summarization models. Through extensive human evaluation, the dataset aids in understanding the types of hallucinations produced by different neural abstractive summarization systems and offers a novel evaluation methodology to enhance the quality of neural summaries.

创建时间：

2020-06-30

原始信息汇总

数据集概述

名称: XSum Hallucination Annotations

来源: 该数据集来自论文 "On Faithfulness and Factuality in Abstractive Summarization"，发表于ACL 2020。

目的: 该数据集用于评估神经抽象摘要模型中的忠实度和事实性，特别是在识别和量化模型生成的摘要中的幻觉内容。

数据集内容

数据组成:

忠实度标注: 包含500 x 5个文档-系统对的摘要忠实度标注，每个摘要由3名标注者评估。
事实性标注: 同样包含500 x 5个文档-系统对的摘要事实性标注，每个摘要由3名标注者评估。

标注细节:

忠实度标注: 标注者需识别并标注未被输入文章支持的摘要片段。包含字段：bbcid, system, summary, hallucination_type, hallucinated_span, hallucinated_span_start, hallucinated_span_end, worker_id。
事实性标注: 标注者需评估摘要是否为事实。包含字段：bbcid, system, summary, is_factual, worker_id。

预计算分数:

提供每个系统与BBC文档对的ROUGE, BERTScore, 蕴含忠实度和事实性分数。
忠实度分数计算基于未在幻觉片段中的单词，事实性分数基于摘要是否被标注为事实。

数据集使用

许可: 数据集遵循Creative Commons Attribution 4.0 International (CC BY 4.0)许可。

联系方式: 技术问题可通过创建仓库问题联系，反馈或报告问题可发送至xsum-hallucinations-acl20@google.com。

搜集汇总

数据集介绍

构建方式

XSum Hallucination Annotations数据集的构建基于对XSum数据集中摘要的忠实度和事实性进行大规模人工评估。研究团队针对500个文档-系统对进行了详细标注，每个对由三个不同的标注者进行评估，确保了数据集的多样性和可靠性。标注过程包括识别并标注系统生成的摘要中与原文不符的内容，并进一步评估摘要的事实性。通过这种方式，数据集不仅捕捉了模型生成的摘要中的幻觉现象，还提供了对这些幻觉类型的详细分类，为后续研究提供了丰富的资源。

特点

该数据集的显著特点在于其专注于神经摘要系统中的幻觉问题，通过人工评估揭示了现有模型在忠实度和事实性方面的不足。数据集不仅提供了幻觉内容的详细标注，还包含了预计算的ROUGE、BERTScore和蕴含忠实度等指标，为研究者提供了多维度的评估工具。此外，数据集的构建方式确保了标注结果的多样性和一致性，使其成为研究摘要生成系统忠实度和事实性的宝贵资源。

使用方法

XSum Hallucination Annotations数据集可用于训练和评估神经摘要系统，特别是那些旨在提高忠实度和事实性的模型。研究者可以通过分析数据集中的幻觉类型和标注结果，设计新的模型或改进现有模型，以减少幻觉现象。此外，数据集中的预计算指标可以作为基准，帮助研究者快速评估模型的性能。通过结合人工标注和自动评估指标，该数据集为摘要生成领域的研究提供了全面的工具和资源。

背景与挑战

背景概述

XSum Hallucination Annotations数据集由Joshua Maynez、Shashi Narayan、Bernd Bohnet和Ryan Thomas Mcdonald于2020年创建，旨在解决神经抽象摘要模型中存在的忠实度和事实性问题。该数据集基于XSum数据集，通过大规模的人工评估，揭示了现有摘要系统在生成摘要时普遍存在的幻觉现象。研究团队通过众包方式对500个文档-系统对进行了详细的忠实度和事实性标注，旨在为抽象摘要领域提供一个重要的评估资源。该数据集的发布不仅有助于提升摘要系统的质量，还为开发更可靠的自动评估指标提供了新的方向。

当前挑战

XSum Hallucination Annotations数据集面临的主要挑战包括：首先，神经抽象摘要模型在生成过程中容易产生与输入文档不符的内容，这种现象在现有评估指标如ROUGE中难以被准确捕捉。其次，构建过程中需要大量的人工标注，确保标注的一致性和准确性是一个复杂且耗时的任务。此外，如何利用这些标注数据开发出更有效的自动评估指标，以及如何在训练和解码过程中引入忠实度和事实性约束，也是该数据集面临的重要挑战。

常用场景

经典使用场景

XSum Hallucination Annotations数据集的经典使用场景主要集中在神经抽象摘要系统的评估与改进上。该数据集通过大规模的人工评估，揭示了现有摘要系统中普遍存在的幻觉问题，即生成的摘要内容与原始文档不一致。研究者可以利用该数据集对不同摘要模型进行细致的 faithfulness 和 factuality 评估，从而识别和量化模型在生成过程中的不忠实性。此外，该数据集还为开发新的自动评估指标提供了基础，特别是通过文本蕴含度量来更好地反映摘要的忠实性。

衍生相关工作

XSum Hallucination Annotations数据集的发布催生了一系列相关研究工作，特别是在摘要系统的忠实性和事实性评估方面。许多研究者利用该数据集开发了新的自动评估指标，如基于文本蕴含的 faithfulness 度量，这些指标在评估摘要系统时表现出更高的相关性。此外，该数据集还启发了对摘要模型训练方法的改进，例如通过引入对抗性训练或强化学习来减少幻觉现象。这些工作不仅提升了摘要系统的性能，还为该领域的未来研究提供了新的方向。

数据集最近研究