RAGTruth

Name: RAGTruth
Creator: 伊利诺伊大学厄巴纳-香槟分校
Published: 2024-05-17 14:29:31
License: 暂无描述

arXiv2024-05-17 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2401.00396v2

下载链接

链接失效反馈

官方服务：

资源简介：

RAGTruth是一个专为分析大型语言模型(LLM)在标准RAG框架应用中各个领域和任务的词级幻觉而设计的数据集。该数据集由NewsBreak和伊利诺伊大学厄巴纳-香槟分校创建，包含近18,000个来自不同LLM的自然生成响应，这些响应经过细致的人工标注，涵盖了幻觉强度的评估。RAGTruth不仅用于基准测试不同LLM的幻觉频率，还用于评估现有幻觉检测方法的有效性。该数据集主要应用于开发和评估在RAG设置下防止幻觉的策略，旨在提高LLM在实际应用中的可靠性和准确性。

RAGTruth is a dataset specifically designed for analyzing token-level hallucinations of Large Language Models (LLMs) across diverse domains and tasks in standard Retrieval-Augmented Generation (RAG) framework applications. Developed by NewsBreak and the University of Illinois Urbana-Champaign, this dataset comprises nearly 18,000 naturally generated responses from various LLMs, which have undergone meticulous manual annotation covering evaluations of hallucination intensity. RAGTruth can be used not only to benchmark the hallucination frequency of different LLMs but also to assess the effectiveness of existing hallucination detection methods. This dataset is primarily applied to develop and evaluate hallucination prevention strategies under RAG settings, aiming to improve the reliability and accuracy of LLMs in real-world applications.

提供机构：

伊利诺伊大学厄巴纳-香槟分校

创建时间：

2023-12-31

搜集汇总

数据集介绍

构建方式

在检索增强生成技术日益成为缓解大语言模型幻觉核心手段的背景下，RAGTruth数据集的构建遵循了严谨的流程。研究团队选取了问答、数据到文本生成以及新闻摘要这三类广泛采用RAG范式的任务，分别从MS MARCO、Yelp Open Dataset和CNN/Daily Mail等权威数据源中随机采样构建输入上下文。随后，利用包括GPT系列、Llama-2系列及Mistral在内的六种主流大语言模型，基于统一且简洁的提示词生成自然响应，共计收集了近一万八千条响应。为确保标注质量，团队聘请了具备英语及相关学科背景的专业标注人员，通过Label Studio平台对每条响应进行细致的词级人工标注，识别并归类幻觉片段，最终通过双人标注与第三方仲裁机制保障了数据的高一致性与可靠性。

特点

RAGTruth数据集的核心特点在于其针对RAG场景的专属性与标注的精细粒度。作为首个大规模、高质量、专注于分析RAG框架下词级幻觉的语料库，它涵盖了多种任务与领域，确保了评估的全面性。数据集中近一万八千条响应均源于模型在真实RAG提示下的自然生成，而非人为诱导，这使其能更真实地反映实际应用中的幻觉模式。尤为突出的是，其标注体系不仅区分响应是否包含幻觉，更深入到词级层面，将幻觉细分为“明显冲突”、“细微冲突”、“明显引入无依据信息”和“细微引入无依据信息”四类，并辅以“隐含真实”和“空值处理”等适应性标注，为深入研究幻觉的细微差别与检测方法的开发提供了前所未有的丰富信息层次。

使用方法

RAGTruth数据集为开发与评估可信的检索增强大语言模型提供了关键基准。研究者可利用该数据集系统评估不同模型在RAG设置下的幻觉倾向，分析幻觉与任务类型、模型规模、上下文长度等因素的关联。在方法开发层面，其精细的词级标注为训练和验证新型幻觉检测模型，特别是基于微调的专用检测器，提供了高质量的监督信号。实验表明，基于RAGTruth微调的中等规模模型（如Llama-2-13B）在幻觉检测性能上可媲美甚至超越基于GPT-4的提示工程方法。此外，训练得到的检测器可直接用于对多模型生成结果进行筛选与融合，从而在实际应用中有效抑制幻觉，提升RAG系统的输出可靠性。

背景与挑战

背景概述

随着大型语言模型在文本生成、机器翻译等任务中展现出卓越能力，其固有的幻觉问题——即生成缺乏事实依据或与给定信息相矛盾的内容——成为制约其可靠应用的关键瓶颈。检索增强生成技术通过为模型提供外部知识，被视为缓解幻觉的有效途径。然而，即便在此框架下，模型仍可能产生与检索内容不符的陈述。为精准评估并提升RAG场景中模型的真实性，由NewsBreak与伊利诺伊大学厄巴纳-香槟分校的研究团队于2024年共同构建了RAGTruth数据集。该数据集聚焦于问答、数据到文本写作及新闻摘要三大任务，收录了近1.8万条由多种主流模型在RAG设置下自然生成的响应，并进行了细致的人工词级标注与幻觉强度评估。RAGTruth的创立为核心研究问题——即如何在知识增强环境下系统量化与检测语言模型的幻觉——提供了大规模、高质量的基准资源，对推动可信赖检索增强语言模型的发展具有奠基性影响。

当前挑战

RAGTruth致力于解决的领域核心挑战，是在检索增强生成框架下精确检测与缓解大型语言模型的幻觉现象。尽管RAG技术旨在通过引入外部知识来确保生成内容的真实性，但模型仍可能产生与检索信息明显冲突或毫无依据的陈述，这种细微的偏差在医疗诊断、新闻摘要等高风险应用中尤为致命。构建该数据集的过程亦面临多重挑战：首先，需在多种任务与模型上收集自然产生的幻觉响应，而非依赖人工合成的诱导数据，以确保评估的真实性与泛化性；其次，词级幻觉标注要求标注者具备深厚的文本理解能力与批判性思维，以辨识细微的事实矛盾与隐含的臆测信息，这导致了高昂的标注成本与严格的质量控制需求；此外，如何处理上下文中的隐含真实信息与空值歧义，也需设计额外的标注策略以适应不同的应用评估标准。

常用场景

经典使用场景

在检索增强生成（RAG）范式中，大语言模型（LLM）虽能整合外部知识，却仍可能产生与检索内容不符或缺乏依据的幻觉文本。RAGTruth数据集专为评估这一场景而构建，其经典使用场景在于为幻觉检测算法提供细粒度的基准测试平台。该数据集涵盖问答、数据到文本生成及新闻摘要三大任务，包含近1.8万条自然生成的响应，并附有详尽的词级人工标注，使研究者能够系统分析不同模型在RAG框架下的幻觉模式与分布特征，从而推动幻觉检测技术的精准化发展。

解决学术问题

RAGTruth数据集针对RAG场景中幻觉评估数据稀缺的核心学术问题，提供了大规模、高质量的词级标注语料。它有效解决了以往数据集中幻觉样本多为合成生成、与自然发生模式脱节的局限，通过真实任务下的多模型响应收集与精细标注，为量化幻觉频率、类型及位置分布奠定了实证基础。该数据集不仅支持跨模型幻觉倾向的基准比较，更通过实验证明，基于其微调的小规模模型能在幻觉检测性能上媲美基于提示的GPT-4方法，显著提升了幻觉检测模型的可训练性与可及性。

衍生相关工作

RAGTruth的发布催生了一系列围绕RAG场景幻觉检测与缓解的衍生研究。其细粒度标注机制为后续工作如细粒度幻觉分类、位置感知检测模型提供了数据基础。基于该数据集，研究者探索了基于提示的检测、自一致性校验（SelfCheckGPT）以及语言模型交叉验证（LMvLM）等多种方法，并证实了微调专用检测模型的优越性。这些工作共同推动了幻觉检测从二分类判断向词级定位的演进，也为幻觉抑制策略——如响应重写与多候选筛选——提供了可复现的评估框架，促进了可信RAG技术的生态发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集