five

Long Context Hallucination Detection Dataset

收藏
arXiv2025-04-28 更新2025-04-30 收录
下载链接:
https://github.com/amazon-science/long-context-hallucination-detection
下载链接
链接失效反馈
官方服务:
资源简介:
本研究构建了一个专门用于长上下文幻觉检测的数据集,该数据集由BookSum数据集扩展而来,其中包含了各种水平的文档摘要对,包括书籍级别、章节级别和段落级别的对。为了创建平衡的数据集,我们在迭代数据集时以50%的概率引入幻觉,每次引入幻觉时,我们随机选择两种类型中的一种。数据集的统计信息如下:训练集包含5,653个示例,其中51%包含幻觉;开发集包含854个示例,其中48%包含幻觉;测试集包含950个示例,其中52%包含幻觉。

This study constructs a dataset specifically tailored for long-context hallucination detection, which is extended from the BookSum dataset. The dataset encompasses document-summary pairs at multiple levels, including book-level, chapter-level, and paragraph-level pairs. To create a balanced dataset, we introduce hallucinations with a 50% probability during dataset iteration. When introducing hallucinations, we randomly select one of the two types. The statistical details of the dataset are as follows: the training set includes 5,653 examples, 51% of which contain hallucinations; the development set includes 854 examples, 48% of which contain hallucinations; the test set includes 950 examples, 52% of which contain hallucinations.
提供机构:
AWS AI Labs, University of Pennsylvania
创建时间:
2025-04-28
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Towards Long Context Hallucination Detection
  • 发布日期: 2025年
  • 相关论文: Towards Long Context Hallucination Detection
  • 作者: Siyi Liu, Kishaloy Halder, Zheng Qi, Wei Xiao, Nikolaos Pappas, Phu Mon Htut, Neha Anna John, Yassine Benajiba, Dan Roth
  • 会议: The 2025 Annual Conference of the Nations of the Americas Chapter of the ACL

数据集内容

  • 数据文件: data/sample.json
    • 包含一个用于训练/测试幻觉检测模型的虚拟数据点。

代码与工具

  • 代码目录: src/
    • 训练脚本: train.sh
    • 评估脚本: eval.py
      • 需配合适当参数运行(参考train.sh)。

引用信息

bibtex @inproceedings{ liu2025towards, title={Towards Long Context Hallucination Detection}, author={Siyi Liu and Kishaloy Halder and Zheng Qi and Wei Xiao and Nikolaos Pappas and Phu Mon Htut and Neha Anna John and Yassine Benajiba and Dan Roth}, booktitle={The 2025 Annual Conference of the Nations of the Americas Chapter of the ACL}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
Long Context Hallucination Detection Dataset的构建基于BookSum数据集中的章节级文档-摘要对,通过精心设计的提示工作流程注入两种类型的上下文幻觉:无根据信息幻觉和矛盾信息幻觉。在数据平衡方面,以50%的概率随机选择幻觉类型进行注入,最终形成包含5,653个训练样本、854个开发样本和950个测试样本的平衡数据集。为确保数据质量,采用困惑度分数自动评估幻觉注入后文本的连贯性和流畅性。
特点
该数据集专注于长文档摘要场景下的上下文幻觉检测,平均文档长度达5,101个token,摘要长度为505个token。其核心特征体现在幻觉类型的细粒度标注——既包含与原文无关的虚构信息,也涵盖直接矛盾原文的篡改内容。数据集通过Llama-3.2-1B的困惑度评估验证了幻觉注入后文本质量(困惑度从18.52降至18.26),为长上下文场景下的模型鲁棒性评估提供了可靠基准。
使用方法
该数据集适用于训练和评估长上下文幻觉检测模型,需将文档与摘要对输入模型进行二元分类判断。使用时应遵循chunk分解策略:将长文档和摘要分别分割为固定长度的文本块(如32个上下文块和8个响应块),通过预训练编码器获取块级表示后,采用注意力机制聚合全局特征进行幻觉检测。实验表明,该方法在保持推理速度(18.62样本/秒)的同时,平衡准确率达67.22%,显著优于LLM基线模型。
背景与挑战
背景概述
Long Context Hallucination Detection Dataset由AWS AI Labs和宾夕法尼亚大学的研究团队于2025年提出,旨在解决大语言模型(LLMs)在生成长文本时产生的上下文幻觉问题。该数据集基于BookSum数据集构建,通过注入无根据或矛盾信息的方式模拟幻觉现象,为长文本幻觉检测任务提供了首个专用评估基准。其创新性在于突破了传统BERT类模型512token的长度限制,通过分块聚合机制实现了长文本的高效处理,对提升问答系统、摘要生成等应用的可靠性具有重要意义。
当前挑战
该领域面临的核心挑战在于长文本语义连贯性与幻觉识别的平衡:一方面,传统NLI方法受限于短文本处理能力,无法捕捉跨长距离的语义依赖;另一方面,LLMs的端到端检测存在计算成本高、延迟大的缺陷。数据构建过程中,研究团队需解决幻觉标注的粒度控制问题,既要确保注入的幻觉具有语义相关性以避免低质量噪声,又要维持原始文本的流畅性。此外,自动评估指标(如困惑度)与人工评判的一致性验证,以及跨领域幻觉模式的泛化能力,都是亟待突破的技术难点。
常用场景
经典使用场景
Long Context Hallucination Detection Dataset 主要用于检测大型语言模型(LLMs)在生成长文本时产生的上下文幻觉问题。该数据集特别适用于评估模型在长文本输入(如书籍章节摘要)中是否生成与上下文不符或无依据的信息。通过分解和聚合机制,该数据集能够有效检测两种主要类型的幻觉:无依据信息幻觉和矛盾信息幻觉。
解决学术问题
该数据集解决了长文本处理中上下文幻觉检测的学术难题。传统方法如BERT等模型受限于输入长度,无法有效处理长文本;而基于LLM的方法则计算成本高昂。该数据集通过引入分解和聚合机制,使预训练编码模型能够高效处理长文本,显著提升了幻觉检测的准确性和效率,填补了长文本幻觉检测研究的空白。
衍生相关工作
该数据集衍生了多项经典工作,如基于分解和聚合架构的预训练模型优化、长文本幻觉检测的自动化评估方法等。相关研究还探索了如何将该架构推广至其他领域,如对话系统和多模态文本生成,进一步推动了长文本处理技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作