mtc/absinth_german_faithfulness_detection_dataset

Hugging Face2024-05-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mtc/absinth_german_faithfulness_detection_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Absinth是一个人工标注的数据集，用于在德语新闻摘要的背景下检测忠实性。该数据集共有4335个实例，每个实例包含：1. 新闻文章：来自20Minuten数据集的原始新闻文章；2. 摘要句子：由多种语言模型生成的新闻文章摘要句子；3. 标签：标注摘要句子与新闻文章之间的关系，分为忠实、内在幻觉和外在幻觉三类。数据集的结构包括文本、文章ID、标签等多个列，并提供了测试集、训练集和验证集的详细信息。

提供机构：

mtc

原始信息汇总

数据集描述

Absinth 是一个用于德语新闻摘要中忠实度检测的人工标注数据集。该数据集共有 4335 个实例，每个实例包含以下内容：

新闻文章：来自 20Minuten 数据集的原始新闻文章。请注意，原始源文章不包含在数据集中，需要单独下载。
摘要句子：由以下语言模型之一生成的机器生成摘要句子：
- mBART：在 20Minuten 上微调的多语言 BART。
- mLongT5：在 20Minuten 上微调的多语言 LongT5。
- Gpt4：Gpt4 的零样本摘要。
- Gpt4-Intrinsic：包含合成内在幻觉的 Gpt4 零样本摘要。
- Gpt4-Extrinsic：包含合成外在幻觉的 Gpt4 零样本摘要。
- Stable-Beluga-2：由 StableBeluga2 生成的零样本摘要，这是一个在 Orca 风格数据集上微调的 Llama2-70B 模型。
- Llama2-7B：在 20Minuten 上使用 QLora 微调的基础 Llama2-7B 模型。
标签：标签将新闻文章与摘要句子的关系分类。标签可以是以下三个值之一：
- Faithful：句子中的信息与新闻文章一致，没有矛盾或添加外部信息。
- Intrinsic Hallucination：句子与文章中的信息矛盾。
- Extrinsic Hallucination：句子包含文章中未提及的信息。

更多关于数据集构建的详细信息，请参阅我们的论文。

数据集结构

数据集包含以下列（最相关的列以粗体显示）：

text：str - 摘要句子
article_id：int - 源文章的 ID
label：str - 摘要句子相对于源文章的标签
id：int - 每个样本的唯一标识符
system：str - 生成摘要句子的模型名称（见上文）
sentence_ord：int - 句子在完整摘要中的顺序
Comments：List - 3 位标注者之一在执行标注时遇到的任何困难的评论
is_gold_annotation：bool - 如果实例由领域专家标注并属于黄金标准，则为 True，否则为 False
agreement_type：str
- full agreement：所有 3 位标注者都同意标签
- mixed agreement：3 位标注者中有 2 位同意标签
- full disagreement：（具有挑战性的样本）所有标注者对标签意见不一，数据集创建者决定最终标注
pre_context：str - 当前摘要句子之前的任何句子
post_context：str - 当前摘要句子之后的任何句子

重要提示： 测试集中包含 22 个实例与训练集共享源文章，1 个实例与验证集共享源文章。要消除这些重叠源文章的测试实例，可以删除 article_id 值为 [131, 139, 15, 16, 146, 151, 35, 163, 41, 175, 177, 179, 181, 185, 187, 60, 61, 70, 87, 96, 112, 82] 的行。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，摘要生成中的忠实度检测是确保生成内容与源文档一致性的关键任务。Absinth数据集正是为应对德语新闻摘要中的幻觉检测而构建的。该数据集由人工标注完成，共计4335个实例，每个实例包含原始新闻文章、机器生成的摘要句子及其对应的标签。原始文章源自20Minuten数据集，而摘要句子则由mBART、mLongT5、Gpt4、Gpt4-Intrinsic、Gpt4-Extrinsic、Stable-Beluga-2及Llama2-7B等七种不同语言模型生成，覆盖了零样本与微调场景。标签分为三类：忠实（与原文一致）、内在幻觉（与原文矛盾）和外在幻觉（包含原文未提及信息），从而构建了一个多层次、多源头的幻觉检测基准。

使用方法

使用该数据集进行幻觉检测研究时，首先需从指定仓库下载原始新闻文章，因为数据集中仅包含文章ID。随后，可通过HuggingFace Datasets库加载预划分的训练、验证和测试集，各分片分别包含2991、202和1142个样本。为消除数据泄露，建议在测试集中剔除与训练集或验证集共享源文章的实例（article_id列表已提供）。数据集可直接用于文本分类任务的微调，其中text字段为输入特征，label字段为三类标签。此外，研究者可利用system字段分析不同模型的幻觉分布，或借助pre_context与post_context字段探索上下文对忠实度判断的影响，从而深入理解幻觉产生的机制。

背景与挑战

背景概述

在自然语言处理领域，文本摘要的忠实性评估是确保生成内容与源文档一致性的关键挑战。尽管大型语言模型在多项任务中取得了突破性进展，但其输出中的幻觉现象——即生成与源文档矛盾或无关的信息——在自动文本摘要中尤为突出，严重威胁着信息可信度。现有研究主要聚焦于英语场景，而针对德语等低资源语言的忠实性检测数据集极度匮乏。为此，苏黎世大学媒体技术中心的研究团队于2024年创建了Absinth数据集，旨在填补德语新闻摘要幻觉检测的空白。该数据集由Laura Mascarell等人主导开发，包含4335个人工标注实例，覆盖mBART、mLongT5、GPT-4等七种模型生成的摘要句子，并细分为忠实、内在幻觉与外在幻觉三类标签。Absinth的发布不仅为德语自然语言处理提供了标准化评估基准，更推动了多语言幻觉检测研究的纵深发展，其影响力已通过LREC-COLING 2024论文得到学术界的广泛认可。

当前挑战

Absinth数据集所解决的领域问题核心在于德语新闻摘要的忠实性自动检测，这要求模型能精准区分摘要句子与原文在事实一致性上的细微差异——包括内在矛盾（如时间、地点等关键信息的扭曲）与外在添加（如引入原文未提及的实体或事件）。然而，构建过程面临多重挑战：首先，幻觉类型的高度复杂性导致标注者间一致性难以保证，数据集最终需通过专家仲裁处理完全分歧样本，这凸显了标注指南的完善性与跨领域专家协作的重要性；其次，源文章与摘要句子间的上下文关联需精细建模，特别是当摘要句子依赖前后文语境时，孤立的句子级标注可能丢失全局语义约束；此外，不同生成模型（如GPT-4与Llama2-7B）产生的幻觉模式差异显著，如何设计泛化能力强的检测算法以应对模型特异性输出，仍是当前技术瓶颈。

常用场景

经典使用场景

在德语新闻摘要的忠实性检测领域，Absinth数据集被广泛用作评估和训练文本分类模型的基准。该数据集包含4335条人工标注的实例，每条实例由原始新闻文章、机器生成的摘要句以及三者之间的忠实性标签构成。标签细分为忠实、内在幻觉和外在幻觉三类，这使其成为研究摘要生成中信息一致性的核心资源。研究者常利用该数据集训练二分类或多分类模型，以自动判别摘要句是否与原文保持一致，从而推动德语自然语言处理中忠实性检测任务的发展。

解决学术问题

该数据集解决了德语新闻摘要领域长期存在的忠实性检测数据匮乏问题。此前，多数研究聚焦于英语场景，而德语等语言缺乏高质量、细粒度的人工标注数据集。Absinth通过提供包含内在幻觉和外在幻觉的详细分类，使学界能够系统研究摘要生成中的不一致现象。其意义在于，它为评估大型语言模型在德语环境下的可靠性提供了标准化工具，揭示了即使是先进模型如GPT-4和Llama2-7B也可能产生幻觉，从而推动了跨语言忠实性检测的学术进步。

实际应用

在实际应用中，Absinth数据集可用于构建德语新闻摘要的自动质量审核系统。媒体机构或内容聚合平台可基于此数据集训练模型，实时检测机器生成的摘要是否忠实于原文，避免传播虚假或误导性信息。此外，该数据集还支持开发针对特定模型（如mBART、mLongT5）的幻觉检测工具，帮助用户在生产环境中过滤不可靠的摘要输出，从而提升新闻自动摘要技术的可信度和安全性。

数据集最近研究