Long Context Hallucination Detection Dataset

Name: Long Context Hallucination Detection Dataset
Creator: AWS AI Labs, University of Pennsylvania
Published: 2025-04-28 11:47:05
License: 暂无描述

arXiv2025-04-28 更新2025-04-30 收录

下载链接：

https://github.com/amazon-science/long-context-hallucination-detection

下载链接

链接失效反馈

官方服务：

资源简介：

本研究构建了一个专门用于长上下文幻觉检测的数据集，该数据集由BookSum数据集扩展而来，其中包含了各种水平的文档摘要对，包括书籍级别、章节级别和段落级别的对。为了创建平衡的数据集，我们在迭代数据集时以50%的概率引入幻觉，每次引入幻觉时，我们随机选择两种类型中的一种。数据集的统计信息如下：训练集包含5,653个示例，其中51%包含幻觉；开发集包含854个示例，其中48%包含幻觉；测试集包含950个示例，其中52%包含幻觉。

This study constructs a dataset specifically tailored for long-context hallucination detection, which is extended from the BookSum dataset. The dataset encompasses document-summary pairs at multiple levels, including book-level, chapter-level, and paragraph-level pairs. To create a balanced dataset, we introduce hallucinations with a 50% probability during dataset iteration. When introducing hallucinations, we randomly select one of the two types. The statistical details of the dataset are as follows: the training set includes 5,653 examples, 51% of which contain hallucinations; the development set includes 854 examples, 48% of which contain hallucinations; the test set includes 950 examples, 52% of which contain hallucinations.

提供机构：

AWS AI Labs, University of Pennsylvania

创建时间：

2025-04-28

原始信息汇总

数据集概述

基本信息

数据集名称: Towards Long Context Hallucination Detection
发布日期: 2025年
相关论文: Towards Long Context Hallucination Detection
作者: Siyi Liu, Kishaloy Halder, Zheng Qi, Wei Xiao, Nikolaos Pappas, Phu Mon Htut, Neha Anna John, Yassine Benajiba, Dan Roth
会议: The 2025 Annual Conference of the Nations of the Americas Chapter of the ACL

数据集内容

数据文件: data/sample.json
- 包含一个用于训练/测试幻觉检测模型的虚拟数据点。

代码与工具

代码目录: src/
- 训练脚本: train.sh
- 评估脚本: eval.py
  - 需配合适当参数运行（参考train.sh）。

引用信息

bibtex @inproceedings{ liu2025towards, title={Towards Long Context Hallucination Detection}, author={Siyi Liu and Kishaloy Halder and Zheng Qi and Wei Xiao and Nikolaos Pappas and Phu Mon Htut and Neha Anna John and Yassine Benajiba and Dan Roth}, booktitle={The 2025 Annual Conference of the Nations of the Americas Chapter of the ACL}, year={2025} }

搜集汇总

数据集介绍

构建方式

Long Context Hallucination Detection Dataset的构建基于BookSum数据集中的章节级文档-摘要对，通过精心设计的提示工作流程注入两种类型的上下文幻觉：无根据信息幻觉和矛盾信息幻觉。在数据平衡方面，以50%的概率随机选择幻觉类型进行注入，最终形成包含5,653个训练样本、854个开发样本和950个测试样本的平衡数据集。为确保数据质量，采用困惑度分数自动评估幻觉注入后文本的连贯性和流畅性。

特点

该数据集专注于长文档摘要场景下的上下文幻觉检测，平均文档长度达5,101个token，摘要长度为505个token。其核心特征体现在幻觉类型的细粒度标注——既包含与原文无关的虚构信息，也涵盖直接矛盾原文的篡改内容。数据集通过Llama-3.2-1B的困惑度评估验证了幻觉注入后文本质量（困惑度从18.52降至18.26），为长上下文场景下的模型鲁棒性评估提供了可靠基准。

使用方法

该数据集适用于训练和评估长上下文幻觉检测模型，需将文档与摘要对输入模型进行二元分类判断。使用时应遵循chunk分解策略：将长文档和摘要分别分割为固定长度的文本块（如32个上下文块和8个响应块），通过预训练编码器获取块级表示后，采用注意力机制聚合全局特征进行幻觉检测。实验表明，该方法在保持推理速度（18.62样本/秒）的同时，平衡准确率达67.22%，显著优于LLM基线模型。

背景与挑战

背景概述

Long Context Hallucination Detection Dataset由AWS AI Labs和宾夕法尼亚大学的研究团队于2025年提出，旨在解决大语言模型（LLMs）在生成长文本时产生的上下文幻觉问题。该数据集基于BookSum数据集构建，通过注入无根据或矛盾信息的方式模拟幻觉现象，为长文本幻觉检测任务提供了首个专用评估基准。其创新性在于突破了传统BERT类模型512token的长度限制，通过分块聚合机制实现了长文本的高效处理，对提升问答系统、摘要生成等应用的可靠性具有重要意义。

当前挑战

该领域面临的核心挑战在于长文本语义连贯性与幻觉识别的平衡：一方面，传统NLI方法受限于短文本处理能力，无法捕捉跨长距离的语义依赖；另一方面，LLMs的端到端检测存在计算成本高、延迟大的缺陷。数据构建过程中，研究团队需解决幻觉标注的粒度控制问题，既要确保注入的幻觉具有语义相关性以避免低质量噪声，又要维持原始文本的流畅性。此外，自动评估指标（如困惑度）与人工评判的一致性验证，以及跨领域幻觉模式的泛化能力，都是亟待突破的技术难点。

常用场景

经典使用场景

Long Context Hallucination Detection Dataset 主要用于检测大型语言模型（LLMs）在生成长文本时产生的上下文幻觉问题。该数据集特别适用于评估模型在长文本输入（如书籍章节摘要）中是否生成与上下文不符或无依据的信息。通过分解和聚合机制，该数据集能够有效检测两种主要类型的幻觉：无依据信息幻觉和矛盾信息幻觉。

解决学术问题

该数据集解决了长文本处理中上下文幻觉检测的学术难题。传统方法如BERT等模型受限于输入长度，无法有效处理长文本；而基于LLM的方法则计算成本高昂。该数据集通过引入分解和聚合机制，使预训练编码模型能够高效处理长文本，显著提升了幻觉检测的准确性和效率，填补了长文本幻觉检测研究的空白。

衍生相关工作

该数据集衍生了多项经典工作，如基于分解和聚合架构的预训练模型优化、长文本幻觉检测的自动化评估方法等。相关研究还探索了如何将该架构推广至其他领域，如对话系统和多模态文本生成，进一步推动了长文本处理技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集