DiaHalu
收藏arXiv2024-03-01 更新2024-06-21 收录
下载链接:
https://anonymous.4open.science/r/DiaHalu-A1E9/
下载链接
链接失效反馈官方服务:
资源简介:
DiaHalu是首个针对大型语言模型对话级别的幻觉评估基准。该数据集由华东师范大学计算机科学与技术学院创建,包含748个样本,覆盖四个常见的多轮对话领域和五种幻觉子类型。数据集通过将收集的话题整合到系统提示中,并促使两个ChatGPT3.5之间进行对话来生成。专业学者对数据集中的所有样本进行了标注。DiaHalu不仅考虑事实幻觉,还进一步将忠诚幻觉细分为三种类型:不连贯、不相关和过度依赖。此外,还引入了推理幻觉。该数据集旨在解决大型语言模型在多轮对话中产生的幻觉问题,为研究提供了一个具有挑战性的基准。
DiaHalu is the first benchmark for evaluating dialogue-level hallucinations in large language models (LLMs). Created by the School of Computer Science and Technology, East China Normal University, this dataset comprises 748 samples spanning four common multi-turn dialogue domains and five hallucination subtypes. It is generated by integrating collected topics into system prompts and prompting two ChatGPT 3.5 instances to engage in a dialogue. All samples in the dataset were manually annotated by professional scholars. Beyond factual hallucinations, DiaHalu further subdivides loyalty hallucinations into three subtypes: incoherence, irrelevance, and over-reliance. Additionally, reasoning hallucinations are included. This dataset is designed to address the hallucination problem of LLMs in multi-turn dialogues, providing a challenging benchmark for related research.
提供机构:
华东师范大学计算机科学与技术学院
创建时间:
2024-03-01
搜集汇总
数据集介绍

构建方式
在大型语言模型幻觉检测领域,DiaHalu数据集的构建采用了系统化的多阶段流程。首先,研究团队从多个来源收集对话主题,涵盖知识驱动、任务导向、闲聊和推理四个领域。随后,通过精心设计的系统提示,引导两个ChatGPT3.5模型进行多轮对话,模拟真实的人机交互场景。为确保对话内容符合人类语言习惯,研究团队对知识驱动和任务导向领域的对话进行了人工修正,并利用语言模型重新生成,最终形成包含748个样本的对话级数据集。整个构建过程注重自然生成与人工干预的结合,以提升数据集的真实性与可靠性。
特点
DiaHalu数据集在幻觉评估领域展现出独特的多维特性。该数据集首次将对话级幻觉检测作为核心任务,覆盖知识驱动、任务导向、闲聊和推理四大对话领域,扩展了传统幻觉评估的适用范围。在幻觉类型方面,不仅包含事实性幻觉,还细化了忠实性幻觉的三个子类——不连贯性、无关性和过度依赖性,并引入了推理错误类型,从而构建了五类幻觉的完整体系。数据集的对话样本平均轮次为6.895轮,响应长度适中,确保了评估任务的复杂性与实用性。此外,所有样本均经过专业学者的精细标注,标注一致性高达0.8709,为模型评估提供了高质量的标准参考。
使用方法
DiaHalu数据集的使用主要围绕对话级幻觉的检测与评估展开。研究者可利用该数据集对大型语言模型进行黑盒或白盒测试,通过输入多轮对话样本,评估模型在识别事实性幻觉与忠实性幻觉方面的性能。数据集支持多种评估方法,包括基于随机基线、专用检测框架(如SelfCheckGPT)以及预训练模型(如LLaMA-30B、Vicuna-33B)的对比实验。此外,用户可结合思维链提示与外部检索技术,探索增强幻觉检测效果的策略。数据集的领域分类与幻觉类型标注为细粒度分析提供了基础,有助于深入探究模型在不同对话场景中的幻觉模式与成因。
背景与挑战
背景概述
随着大语言模型在自然语言处理领域取得显著成就,幻觉问题成为制约其可靠应用的核心挑战。为系统评估模型在多轮对话中生成内容的真实性,华东师范大学的研究团队于2024年提出了首个对话级幻觉评估基准DiaHalu。该数据集聚焦于大语言模型在知识对话、任务导向、闲聊和推理四大常见对话场景中产生的幻觉现象,不仅涵盖事实性幻觉,更创新性地扩展了忠实性幻觉的细分类型,包括不一致性、无关性和过度依赖等。通过模拟真实人机交互环境,并引入专业学者标注,DiaHalu为深入探究对话系统中幻觉的成因与检测提供了关键的研究基础。
当前挑战
DiaHalu致力于解决对话级幻觉检测的复杂问题,其核心挑战体现在两个方面:在领域问题层面,多轮对话中幻觉的识别需克服长程依赖与语境动态演变的困难,模型需同时兼顾事实准确性与对话逻辑连贯性;而忠实性幻觉的细微差异,如无关响应与过度依赖的区分,对检测算法的语义理解深度提出了更高要求。在构建过程中,挑战主要源于数据生成的生态效度保障——如何使ChatGPT3.5生成的对话既保持自然流畅,又符合真实人机交互模式,这需要大量人工调整与再生成;同时,多类型幻觉的标注需协调多位专家达成高度一致的标注标准,其Fleiss's Kappa值达0.8709的过程反映了标注体系设计的复杂性。
常用场景
经典使用场景
在大型语言模型(LLM)的对话系统研究中,DiaHalu数据集被广泛用于评估多轮对话中的幻觉现象。该数据集覆盖知识驱动、任务导向、闲聊和推理四个常见对话领域,通过模拟真实的人机交互场景,为研究者提供了一个自然生成的对话级幻觉检测基准。其经典使用场景包括测试LLM在长上下文对话中生成内容的真实性与连贯性,尤其在检测事实性幻觉和忠实性幻觉方面具有重要价值。
解决学术问题
DiaHalu数据集主要解决了大型语言模型研究中幻觉检测的若干核心问题。传统基准多关注句子或段落级别的幻觉,且常通过人为诱导生成,而DiaHalu首次在对话级别系统性地整合了事实性幻觉与忠实性幻觉,并细分为非事实性、不连贯、不相关、过度依赖及推理错误五类子问题。该数据集通过自然生成的对话样本,帮助研究者深入探究LLM在复杂交互场景中的幻觉产生机制,为提升模型的可信度与可靠性提供了关键数据支持。
衍生相关工作
DiaHalu数据集的推出催生了一系列围绕对话级幻觉检测的衍生研究。基于其多领域、多幻觉类型的结构,学者们开发了如链式思维(CoT)增强检测、检索增强生成等新方法,以提升幻觉识别的性能。此外,该数据集也促进了针对幻觉雪球效应、模型不可回答性等深层问题的探索,为后续工作如幻觉消除技术、长上下文对话优化提供了基准与灵感,推动了大型语言模型在对话安全性与鲁棒性方面的持续进步。
以上内容由遇见数据集搜集并总结生成



