DiaHalu

Name: DiaHalu
Creator: 华东师范大学计算机科学与技术学院
Published: 2024-03-01 23:38:55
License: 暂无描述

arXiv2024-03-01 更新2024-06-21 收录

下载链接：

https://anonymous.4open.science/r/DiaHalu-A1E9/

下载链接

链接失效反馈

官方服务：

资源简介：

DiaHalu是首个针对大型语言模型对话级别的幻觉评估基准。该数据集由华东师范大学计算机科学与技术学院创建，包含748个样本，覆盖四个常见的多轮对话领域和五种幻觉子类型。数据集通过将收集的话题整合到系统提示中，并促使两个ChatGPT3.5之间进行对话来生成。专业学者对数据集中的所有样本进行了标注。DiaHalu不仅考虑事实幻觉，还进一步将忠诚幻觉细分为三种类型：不连贯、不相关和过度依赖。此外，还引入了推理幻觉。该数据集旨在解决大型语言模型在多轮对话中产生的幻觉问题，为研究提供了一个具有挑战性的基准。

DiaHalu is the first benchmark for evaluating dialogue-level hallucinations in large language models (LLMs). Created by the School of Computer Science and Technology, East China Normal University, this dataset comprises 748 samples spanning four common multi-turn dialogue domains and five hallucination subtypes. It is generated by integrating collected topics into system prompts and prompting two ChatGPT 3.5 instances to engage in a dialogue. All samples in the dataset were manually annotated by professional scholars. Beyond factual hallucinations, DiaHalu further subdivides loyalty hallucinations into three subtypes: incoherence, irrelevance, and over-reliance. Additionally, reasoning hallucinations are included. This dataset is designed to address the hallucination problem of LLMs in multi-turn dialogues, providing a challenging benchmark for related research.

提供机构：

华东师范大学计算机科学与技术学院

创建时间：

2024-03-01

搜集汇总

数据集介绍

构建方式

在大型语言模型幻觉检测领域，DiaHalu数据集的构建采用了系统化的多阶段流程。首先，研究团队从多个来源收集对话主题，涵盖知识驱动、任务导向、闲聊和推理四个领域。随后，通过精心设计的系统提示，引导两个ChatGPT3.5模型进行多轮对话，模拟真实的人机交互场景。为确保对话内容符合人类语言习惯，研究团队对知识驱动和任务导向领域的对话进行了人工修正，并利用语言模型重新生成，最终形成包含748个样本的对话级数据集。整个构建过程注重自然生成与人工干预的结合，以提升数据集的真实性与可靠性。

特点

DiaHalu数据集在幻觉评估领域展现出独特的多维特性。该数据集首次将对话级幻觉检测作为核心任务，覆盖知识驱动、任务导向、闲聊和推理四大对话领域，扩展了传统幻觉评估的适用范围。在幻觉类型方面，不仅包含事实性幻觉，还细化了忠实性幻觉的三个子类——不连贯性、无关性和过度依赖性，并引入了推理错误类型，从而构建了五类幻觉的完整体系。数据集的对话样本平均轮次为6.895轮，响应长度适中，确保了评估任务的复杂性与实用性。此外，所有样本均经过专业学者的精细标注，标注一致性高达0.8709，为模型评估提供了高质量的标准参考。

使用方法

DiaHalu数据集的使用主要围绕对话级幻觉的检测与评估展开。研究者可利用该数据集对大型语言模型进行黑盒或白盒测试，通过输入多轮对话样本，评估模型在识别事实性幻觉与忠实性幻觉方面的性能。数据集支持多种评估方法，包括基于随机基线、专用检测框架（如SelfCheckGPT）以及预训练模型（如LLaMA-30B、Vicuna-33B）的对比实验。此外，用户可结合思维链提示与外部检索技术，探索增强幻觉检测效果的策略。数据集的领域分类与幻觉类型标注为细粒度分析提供了基础，有助于深入探究模型在不同对话场景中的幻觉模式与成因。

背景与挑战

背景概述

随着大语言模型在自然语言处理领域取得显著成就，幻觉问题成为制约其可靠应用的核心挑战。为系统评估模型在多轮对话中生成内容的真实性，华东师范大学的研究团队于2024年提出了首个对话级幻觉评估基准DiaHalu。该数据集聚焦于大语言模型在知识对话、任务导向、闲聊和推理四大常见对话场景中产生的幻觉现象，不仅涵盖事实性幻觉，更创新性地扩展了忠实性幻觉的细分类型，包括不一致性、无关性和过度依赖等。通过模拟真实人机交互环境，并引入专业学者标注，DiaHalu为深入探究对话系统中幻觉的成因与检测提供了关键的研究基础。

当前挑战

DiaHalu致力于解决对话级幻觉检测的复杂问题，其核心挑战体现在两个方面：在领域问题层面，多轮对话中幻觉的识别需克服长程依赖与语境动态演变的困难，模型需同时兼顾事实准确性与对话逻辑连贯性；而忠实性幻觉的细微差异，如无关响应与过度依赖的区分，对检测算法的语义理解深度提出了更高要求。在构建过程中，挑战主要源于数据生成的生态效度保障——如何使ChatGPT3.5生成的对话既保持自然流畅，又符合真实人机交互模式，这需要大量人工调整与再生成；同时，多类型幻觉的标注需协调多位专家达成高度一致的标注标准，其Fleiss's Kappa值达0.8709的过程反映了标注体系设计的复杂性。

常用场景

经典使用场景

在大型语言模型（LLM）的对话系统研究中，DiaHalu数据集被广泛用于评估多轮对话中的幻觉现象。该数据集覆盖知识驱动、任务导向、闲聊和推理四个常见对话领域，通过模拟真实的人机交互场景，为研究者提供了一个自然生成的对话级幻觉检测基准。其经典使用场景包括测试LLM在长上下文对话中生成内容的真实性与连贯性，尤其在检测事实性幻觉和忠实性幻觉方面具有重要价值。

解决学术问题

DiaHalu数据集主要解决了大型语言模型研究中幻觉检测的若干核心问题。传统基准多关注句子或段落级别的幻觉，且常通过人为诱导生成，而DiaHalu首次在对话级别系统性地整合了事实性幻觉与忠实性幻觉，并细分为非事实性、不连贯、不相关、过度依赖及推理错误五类子问题。该数据集通过自然生成的对话样本，帮助研究者深入探究LLM在复杂交互场景中的幻觉产生机制，为提升模型的可信度与可靠性提供了关键数据支持。

衍生相关工作

DiaHalu数据集的推出催生了一系列围绕对话级幻觉检测的衍生研究。基于其多领域、多幻觉类型的结构，学者们开发了如链式思维（CoT）增强检测、检索增强生成等新方法，以提升幻觉识别的性能。此外，该数据集也促进了针对幻觉雪球效应、模型不可回答性等深层问题的探索，为后续工作如幻觉消除技术、长上下文对话优化提供了基准与灵感，推动了大型语言模型在对话安全性与鲁棒性方面的持续进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集