kg-hallu-eval
收藏arXiv2025-12-29 更新2025-12-31 收录
下载链接:
https://github.com/knowledge-verse-ai/kg-hallu-eval
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为kg-hallu-eval,由KnowledgeVerse AI和eCampus大学联合创建,专注于大语言模型幻觉自检测研究。数据集包含500余条经过人工标注的样本,涵盖现实场景中的受控幻觉案例和真实模型生成内容,数据来源包括人工构造的典型幻觉样本及GPT-4o等模型的原始输出。创建过程通过专家团队对多轮模型响应进行事实核查和标注,确保数据质量。该数据集旨在解决大语言模型在关键应用中产生虚假陈述的问题,为幻觉检测算法提供标准化评估基准,推动可信AI系统的发展。
The dataset named kg-hallu-eval was jointly created by KnowledgeVerse AI and eCampus University, focusing on the research of hallucination self-detection for large language models (LLMs). It contains over 500 manually annotated samples, covering controlled hallucination cases in real-world scenarios and authentic model-generated content. The data sources include both typical manually constructed hallucination samples and raw outputs from models such as GPT-4o. During the dataset development, an expert team conducted fact-checking and annotation on multi-round model responses to ensure high data quality. This dataset aims to address the problem of false statements generated by large language models in critical applications, providing a standardized evaluation benchmark for hallucination detection algorithms and promoting the development of trustworthy AI systems.
提供机构:
KnowledgeVerse AI; eCampus University·理论与应用科学系
创建时间:
2025-12-29
原始信息汇总
数据集概述
数据集来源
- 数据集详情页面地址:https://github.com/knowledge-verse-ai/kg-hallu-eval
- 所有数据集均位于代码库的
data文件夹中。
包含的数据集
1. SimpleQA
- 描述:SimpleQA 是由 OpenAI 提供的事实性基准测试,用于评估语言模型回答简短事实性问题的能力。它包含来自多个领域的 4.3k 个问题-答案对。
- 处理方式:遵循基准测试协议,将样本分类为准确或不准确。由于 SimpleQA 中包含的正确模型答案相对较少,通过选择等量的正确和错误样本来平衡数据集。
- 最终规模:
- GPT-4o:1,550 个句子。
- Gemini-2.5-Flash:990 个句子。
2. WikiBio GPT-4o
- 描述:这是一个手动策划的 WikiBio GPT-4o 幻觉检测基准数据集,旨在解决现有资源的局限性。许多现有数据集要么缺乏真实的 LLM 生成输出,要么存在类别不平衡问题(例如 WikiBio GPT-3 依赖较旧模型且幻觉示例过多)。
- 内容:包含 501 个精心策划的句子,源自真实的 GPT-4o 输出,并在准确和幻觉示例之间保持平衡。
- 用途:支持对单样本和多样本幻觉检测方法进行稳健评估。
数据集关联方法
数据集用于评估三种核心幻觉自检测方法,每种方法均包含基于文本和**基于知识图谱(KG)**的变体。
单样本方法
分析模型的一次响应以检测幻觉,产生一个介于 0 和 1 之间的分数,较低的值表示幻觉可能性较高。
-
自提问(Self-Questioning)
- 文本变体:模型被提示生成关于其自身响应的验证问题,回答它们,并评估一致性。
- 知识图谱变体:将响应转换为事实知识图谱。模型为每个事实单独生成验证问题并评估一致性。最终的幻觉分数是所有三元组的平均值。
-
自信度(Self-Confidence)
- 文本变体:模型被提示为其响应提供一个 [0,1] 范围内的置信度分数。
- 知识图谱变体:将响应分解为知识图谱。模型为每个事实提供置信度分数,整体分数是所有三元组的平均值。
多样本方法
从同一提示生成多个响应并比较它们的一致性,基于幻觉不太可能完全重复出现的原理。
- SelfCheckGPT
- 文本变体:使用语义相似度(BERTScore)将模型的输出与多个随机样本进行比较。
- 知识图谱变体:将所有响应转换为知识图谱。计算原始图中每个三元组与每个采样图中最相似三元组之间的事实级相似度。分数在所有三元组上平均,以提供事实级 BERTScore。
搜集汇总
数据集介绍

构建方式
在大型语言模型幻觉检测的研究背景下,kg-hallu-eval数据集的构建遵循了严谨的学术流程。该数据集以维基百科文章的开篇段落作为基础文本,通过GPT-4o模型在特定温度参数下生成多个响应样本。随后,研究团队在严格的专家监督下,通过人工插入虚假句子或修改现有句子信息的方式,精心构造了包含幻觉的样本。最终,数据集包含了501个经过精细标注的句子,每个句子都被明确分类为准确或幻觉,确保了数据的高质量与平衡性,为幻觉自检测方法的可靠评估奠定了坚实基础。
特点
该数据集在幻觉检测领域展现出鲜明的特色。其核心优势在于包含了由现代高性能模型GPT-4o生成的真实世界样本,而非模拟数据,这极大地提升了评估的现实意义。数据集在准确与幻觉两类样本的分布上实现了精心平衡,克服了早期资源中常见的类别失衡问题。此外,样本平均长度适中且语义信息丰富,为模型捕捉细微的上下文差异和进行事实级分析提供了可能,使其特别适合于评估基于知识图谱等结构化方法的幻觉检测性能。
使用方法
在大型语言模型可靠性评估的实践中,kg-hallu-eval数据集主要服务于幻觉自检测算法的性能测评。研究者可将待评估的检测方法应用于该数据集,通过计算准确率、F1分数和AUC-PR等指标,量化方法区分准确陈述与幻觉的能力。数据集尤其适用于验证那些融入知识图谱结构的增强型方法,通过将模型输出分解为实体-关系三元组进行事实级分析,从而检验结构化表示是否能够提升检测的精确度与可解释性。
背景与挑战
背景概述
随着大型语言模型在关键应用中的广泛部署,其生成看似合理但实则虚假陈述的幻觉问题已成为制约其可信度与实用性的核心障碍。为应对这一挑战,研究人员Sahil Kale与Antonio Luca Alfeo于2025年提出了kg-hallu-eval数据集,旨在通过结构化知识表征增强幻觉自检测能力。该数据集构建于WikiBio框架之上,包含501条经过人工精细标注的GPT-4o生成样本,平衡了准确陈述与受控幻觉的比例,为评估基于知识图谱的自检测方法提供了高质量基准。其核心研究问题聚焦于如何利用模型自身生成的实体关系图谱,实现对输出中原子事实的精准定位与验证,从而推动语言模型向更安全、更可靠的方向演进。
当前挑战
kg-hallu-eval数据集所针对的领域挑战在于解决大型语言模型幻觉自检测中的结构化表征缺失问题。传统方法将模型输出视为整体文本进行评估,难以精确识别句子中特定事实的真伪,尤其当输出包含多个复杂事实时,检测的粒度与可解释性不足。在构建过程中,主要挑战包括:需人工创建具有现实意义的受控幻觉样本,确保其与真实语境无缝融合;平衡数据集中的正负例比例,避免因类别失衡导致评估偏差;以及从现代高性能模型(如GPT-4o)中采集真实生成样本,以反映当前模型的实际行为模式。这些挑战要求标注过程具备高度的领域专业知识与严格的质控流程。
常用场景
经典使用场景
在大型语言模型(LLM)幻觉检测的研究领域,kg-hallu-eval数据集被广泛用于评估和验证基于知识图谱的自我检测方法。该数据集通过精心构建的平衡样本,覆盖了真实模型生成的准确与幻觉语句,为研究者提供了标准化的测试平台。其经典使用场景在于对比不同自我检测技术(如Self-Questioning、Self-Confidence及SelfCheckGPT)在引入知识图谱前后的性能差异,从而揭示结构化表示对提升检测准确性的关键作用。
解决学术问题
kg-hallu-eval数据集有效应对了幻觉检测研究中缺乏高质量、平衡基准数据的挑战。它解决了现有数据集普遍存在的类别不平衡、样本真实性不足以及模型过时等问题,为学术界提供了可靠评估工具。通过支持事实级分析,该数据集帮助研究者深入探究幻觉产生的内在机制,例如错误事实关联或误导性上下文,而非单纯缺失原子事实,从而推动更精准的检测算法发展。
衍生相关工作
围绕kg-hallu-eval数据集,衍生出一系列聚焦于结构化幻觉检测的创新研究。例如,基于知识图谱增强的Self-Questioning方法在事实一致性验证上取得显著改进;而Self-Confidence与知识图谱的结合则提升了模型自我评估的校准能力。这些工作进一步推动了如Think-on-Graph等图推理技术的应用,为多语言泛化、跨领域鲁棒性检测等方向奠定了理论基础。
以上内容由遇见数据集搜集并总结生成



