HADTest

Name: HADTest
Creator: 北京大学王选计算机研究所, 阿里巴巴集团, 复旦大学
Published: 2025-10-22 15:28:37
License: 暂无描述

arXiv2025-10-22 更新2025-10-24 收录

下载链接：

https://github.com/pkuOxff/HAD

下载链接

链接失效反馈

官方服务：

资源简介：

HADTest数据集是一个高质量的测试集，包含2,248个样本，旨在用于幻觉检测。该数据集由作者们手动标注，确保了数据的高质量。数据集涵盖了多种幻觉类型，包括任务类型不一致、任务要求不一致、与输入内容矛盾、无根据的信息、信息遗漏、输出内容矛盾、结构不一致、事实回忆错误、事实推断错误、编造实体、虚构归因等。HADTest数据集旨在解决自然语言生成模型中存在的幻觉问题，提高模型输出信息的准确性和可靠性。

The HADTest dataset is a high-quality test set containing 2,248 samples, designed for hallucination detection. This dataset was manually annotated by the authors to ensure its high quality. The dataset covers a wide range of hallucination types, including inconsistent task types, inconsistent task requirements, contradictions with input content, unsubstantiated information, omitted information, contradictory output content, inconsistent structure, factual recall errors, factual inference errors, fabricated entities, fictitious attributions, etc. The HADTest dataset aims to address the hallucination issues in natural language generation (NLG) models and enhance the accuracy and reliability of model outputs.

提供机构：

北京大学王选计算机研究所, 阿里巴巴集团, 复旦大学

创建时间：

2025-10-22

搜集汇总

数据集介绍

构建方式

HADTest数据集的构建过程体现了严谨的学术规范，采用多阶段质量控制流程。研究团队首先从多个权威自然语言生成任务数据源中筛选基础语料，涵盖信息扩展、对齐、压缩和延续四类任务场景。通过基于GPT-4o的自动化幻觉注入技术，在保持原始语义结构的基础上系统性地植入11种细粒度幻觉类型，每个数据项生成5个候选变体。随后采用双重人工标注机制，由具备专业背景的标注者独立审核每个样本的幻觉类型符合度与跨度准确性，仅当双方达成共识才纳入最终数据集，确保标注质量达到80.56%的一致性水平。

特点

该数据集的核心特征在于其多维度的系统性设计。内容层面覆盖自然语言生成全场景任务谱系，囊括从对话系统到知识问答等八大任务类型，并创新性地构建了包含忠实性与事实性双维度的11类细粒度幻觉分类体系。结构设计上采用正负样本均衡策略，最终集成的2,248个样本中幻觉样本与正常样本各占半数，每个样本均精确标注幻觉类型、错误跨度和修正文本三元组。质量层面通过严格的自动过滤与人工校验机制，原始测试数据通过率达到66.37%，为幻觉检测研究提供了高信度的评估基准。

使用方法

该数据集支持端到端的幻觉检测模型训练与评估范式。在使用过程中，模型需同步完成三重任务：基于层次化分类体系的幻觉类型识别、基于字符级定位的幻觉跨度检测、以及保持语义连贯的文本修正生成。评估框架采用多粒度指标系统，细粒度分类任务考察准确率与宏F1值，跨度检测与修正任务则通过词级精确率、召回率和F1分数进行量化。数据集特别适用于跨领域泛化能力验证，可与HaluEval、FactCHD等外部基准形成互补评估体系，为模型在真实场景中的鲁棒性提供全面检验。

背景与挑战

背景概述

随着自然语言生成技术的快速发展，大型语言模型在内容创作、客户服务和个性化教育等领域的广泛应用，引发了对其输出可靠性的高度关注。2025年由北京大学王选计算机研究所联合阿里巴巴集团和复旦大学研究团队提出的HADTest数据集，专门针对语言模型幻觉检测任务构建。该数据集包含2,248个精心标注的样本，涵盖11种细粒度幻觉类型，旨在为多任务自然语言生成场景下的幻觉检测提供标准化评估基准。其创新性在于首次将事实性和忠实性两个维度的幻觉纳入统一分类体系，对提升语言模型的可信度评估具有重要理论价值。

当前挑战

在解决领域问题层面，HADTest面临多任务场景下幻觉类型识别的复杂性挑战，需要同时处理指令不一致、输入上下文矛盾、事实回忆错误等11种异构幻觉模式。构建过程中，研究团队需克服合成数据与真实分布差异的难题，通过GPT-4o生成的9万条训练数据需经过多轮质量验证，确保幻觉注入的准确性和多样性。测试集标注需保持80.56%的标注者间一致性，同时平衡正负样本比例，这对标注规范设计和质量管控提出极高要求。此外，模型还需解决单跨度幻觉检测的局限性，应对现实场景中多错误跨度交织的复杂情况。

常用场景

经典使用场景

在自然语言生成模型的可靠性评估领域，HADTest数据集作为人工标注的幻觉检测基准，其核心应用场景聚焦于多任务环境下的细粒度幻觉识别。该数据集通过涵盖摘要生成、对话系统、问答任务等11类自然语言处理任务，为研究者提供了系统评估模型输出准确性与一致性的标准化平台。在模型验证阶段，研究者通常将待测模型的生成结果与HADTest的标注数据进行对比分析，从而精确量化模型在事实性、忠实性等维度的幻觉产生倾向。

衍生相关工作

基于HADTest的基准特性，学术界衍生出多项创新研究。在模型架构方面，研究者开发出融合知识检索的增强型检测系统，通过实时接入维基百科等知识库提升事实性幻觉识别率；在训练范式上，出现了基于对抗样本的数据增强方法，通过模拟复杂幻觉场景提升模型鲁棒性；在评估体系层面，催生了面向长文本生成的层级式评估框架，将幻觉检测延伸至篇章连贯性分析。这些工作共同推动了幻觉检测从单点技术向系统化解决方案的演进。

数据集最近研究