HalluMix Benchmark
收藏arXiv2025-05-01 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2505.00506v1
下载链接
链接失效反馈官方服务:
资源简介:
HalluMix Benchmark是一个大规模、领域多样化的数据集,专门设计用于评估真实生成场景中的幻觉检测。该数据集包括来自多个任务的示例,包括摘要、问答和自然语言推理,并涵盖广泛的领域,如医疗保健、法律、科学和新闻。每个实例都包含一个多文档上下文和一个响应,以及二进制幻觉标签,指示响应是否忠实于提供的文档。数据集旨在反映现实世界的信息检索场景,并评估现有幻觉检测方法在不同任务、文档长度和输入表示上的性能差异。
HalluMix Benchmark is a large-scale, domain-diverse dataset specifically designed to evaluate hallucination detection in real-world generative scenarios. This dataset includes examples from multiple tasks such as summarization, question answering, and natural language inference, covering a wide range of domains including healthcare, law, science, and journalism. Each instance contains a multi-document context, a response, and a binary hallucination label indicating whether the response is faithful to the provided documents. The dataset is intended to reflect real-world information retrieval scenarios and assess the performance differences of existing hallucination detection methods across different tasks, document lengths, and input representations.
提供机构:
Quotient AI
创建时间:
2025-05-01
搜集汇总
数据集介绍

构建方式
HalluMix Benchmark的构建采用了多源数据集融合的策略,通过整合来自自然语言推理(NLI)、问答(QA)和文本摘要三大任务领域的多样化数据,确保了数据集的广泛覆盖性和任务无关性。构建过程中,研究团队对原始数据进行了精细的转换和标注,例如将NLI数据集中的假设关系重新映射为幻觉标签,并通过随机错配摘要与文档的方式生成幻觉样本。此外,数据集还模拟了真实世界中的检索增强生成(RAG)场景,通过分块、打乱文档顺序以及添加无关文档块等方式,增强了数据集的复杂性和实用性。最终,经过去重和分层抽样,形成了一个包含6500个平衡数据点的高质量基准数据集。
特点
HalluMix Benchmark的显著特点在于其任务无关性和多领域覆盖性,能够全面评估幻觉检测系统在不同场景下的性能。数据集涵盖了医疗、法律、科学和新闻等多个领域,包含了从简短回答到长篇摘要的多样化文本形式。其独特的文档分块和噪声注入机制,模拟了真实世界中的信息检索环境,使得评估更加贴近实际应用。此外,数据集的幻觉样本通过多种策略生成,确保了幻觉类型的多样性和复杂性,为幻觉检测研究提供了丰富的测试场景。
使用方法
使用HalluMix Benchmark进行幻觉检测评估时,研究者需将待测系统与数据集中的多文档上下文和响应进行比对,通过系统输出的二进制标签(0表示忠实,1表示幻觉)来评估其性能。数据集支持灵活的输入格式,适应不同检测系统的需求,如单文档或文档列表输入。评估过程中,重点关注系统在不同任务类型、文本长度和领域下的表现差异,以全面了解其优势和局限。此外,数据集的分层结构允许针对特定子集(如NLI或摘要任务)进行专项分析,为系统优化提供针对性指导。
背景与挑战
背景概述
HalluMix Benchmark是由Quotient AI的研究团队于2025年推出的一个多领域、任务无关的幻觉检测基准数据集。随着大型语言模型(LLM)在高风险领域的广泛应用,检测模型生成的幻觉内容(即缺乏证据支持的文本)已成为关键挑战。传统基准数据集通常局限于特定任务(如抽取式问答)或依赖合成数据,难以反映现实场景中多文档上下文和完整句子输出的复杂性。HalluMix整合了来自摘要、问答和自然语言推理等多个任务的数据,涵盖医疗、法律、科学和新闻等多个领域,为幻觉检测研究提供了更全面的评估框架。该数据集的推出显著推动了LLM可信度评估领域的发展,为构建更可靠的生成式AI系统奠定了基础。
当前挑战
HalluMix Benchmark面临的挑战主要体现在两个方面:领域问题层面,现有系统在长文本上下文(如摘要任务)中的表现显著低于短文本(如问答任务),揭示出现有方法在保持跨句子连贯性和追踪长距离指代关系方面的不足;构建过程层面,数据集需要平衡多领域代表性(医疗/法律等专业领域术语处理)与标注一致性(不同任务类型下"幻觉"的判定标准统一),同时要避免原始数据中的顺序偏差(通过文档块随机化处理),并解决真实场景下的检索噪声问题(通过添加无关文档块模拟实际RAG系统的噪声环境)。这些挑战使得构建既具有领域广度又保持评估严谨性的基准变得尤为复杂。
常用场景
经典使用场景
HalluMix Benchmark作为多领域、任务无关的基准数据集,其经典使用场景主要集中在大语言模型(LLMs)生成内容的幻觉检测研究。该数据集通过整合自然语言推理(NLI)、问答(QA)和摘要生成等多种任务,覆盖法律、医疗、新闻等高风险领域,为研究者提供了评估幻觉检测系统在真实场景下性能的统一平台。其多文档上下文和完整句子输出的设计,尤其适用于模拟检索增强生成(RAG)等实际应用中的复杂环境。
解决学术问题
该数据集解决了现有幻觉检测基准的三大局限:任务单一性(如过度依赖问答任务)、合成数据主导性以及短上下文评估的片面性。通过引入跨领域的人类标注数据和真实生成样本,HalluMix首次实现了对模型在长文本、多文档场景下幻觉行为的系统性量化,为学术界提供了衡量模型事实一致性的黄金标准。其平衡的标签分布和领域多样性,显著提升了研究成果在医疗诊断、法律文书生成等关键场景的可信度。
衍生相关工作
基于HalluMix的评估框架,衍生出多个标志性研究:Quotient AI提出的分层验证架构(Accuracy 0.82)首次实现长短文本的统一检测;Patronus Lynx 8B模型在长摘要任务中展现的领域适应性(PubMed准确率0.91)启发了后续医疗文本专用检测器的开发。Ragas Faithfulness方法采用的声明分解策略,更成为当前开源社区事实核查工具链的标准范式,推动着Llama 3等开源模型的幻觉缓解研究。
以上内容由遇见数据集搜集并总结生成



