RAGTruth

github2024-02-04 更新2024-05-31 收录

下载链接：

https://github.com/ParticleMedia/RAGTruth

下载链接

链接失效反馈

官方服务：

资源简介：

RAGTruth是一个用于训练和评估检索增强生成(RAG)设置中各种任务的词级幻觉语料库。尽管RAG已被集成以减轻大型语言模型(LLMs)中的幻觉，但LLMs仍可能对检索内容提出无支持或矛盾的主张。为了在RAG下开发有效的幻觉预防策略，创建能够衡量幻觉程度的基准数据集至关重要。RAGTruth包含近18,000个来自多样LLMs使用RAG自然生成的响应，这些响应经过了细致的手动标注，包括个体案例和词级别的幻觉强度评估。

RAGTruth is a corpus designed for training and evaluating various tasks in Retrieval-Augmented Generation (RAG) settings, specifically focusing on word-level hallucination. Although RAG has been integrated to mitigate hallucinations in Large Language Models (LLMs), LLMs may still make unsupported or contradictory claims about the retrieved content. To develop effective hallucination prevention strategies under RAG, it is crucial to create benchmark datasets that can measure the extent of hallucinations. RAGTruth contains nearly 18,000 naturally generated responses from diverse LLMs using RAG, which have been meticulously manually annotated, including individual cases and word-level hallucination intensity assessments.

创建时间：

2023-12-26

原始信息汇总

数据集概述

数据集名称

RAGTruth

数据集描述

RAGTruth是一个用于训练和评估在检索增强生成（RAG）设置下的各种任务中的词级幻觉语料库。该数据集包含近18,000个由不同大型语言模型（LLMs）自然生成的响应，这些响应经过细致的手动标注，包括个体案例和词级别的幻觉强度评估。

数据集组成

response.jsonl
- Field Name: id, source_id, model, temperature, labels, split, quality, response
- Description: 包含每个响应的详细信息，包括响应的标识、生成该响应的模型、温度设置、幻觉标注等。
source_info.jsonl
- Field Name: source_id, task_type, source, source_info, prompt
- Description: 包含源信息的详细描述，包括任务类型、源内容来源、源信息内容和用于生成响应的提示。

数据集更新

2024/06: 发布训练和评估代码。
2024/02: 更新数据，增加更多标注的幻觉和新增元数据implicit_true。
2024/01: 发布RAGTruth语料库。

数据统计

Summarization(CNN/DM): 628个实例，3768个响应，1165个幻觉响应，1474个幻觉跨度。
Summarization(Recent News): 315个实例，1890个响应。

搜集汇总

数据集介绍

构建方式

RAGTruth数据集的构建基于检索增强生成（RAG）设置下的自然语言生成任务，涵盖了多种语言模型生成的近18,000条响应。这些响应经过精细的手动标注，不仅在案例层面进行评估，还在单词级别上进行了幻觉强度的详细标注。数据集的构建过程中，每条源信息对应六个不同的模型响应，确保了数据的多样性和广泛性。

特点

RAGTruth数据集的主要特点在于其细致的幻觉标注，涵盖了幻觉的类型、位置及其成因，如是否由空值引起或是否为隐含正确信息。此外，数据集还包含了生成响应时的模型参数（如温度）以及响应的质量评估，如是否被截断或是否存在拒绝回答的错误。这些特性使得RAGTruth成为评估和训练幻觉预防策略的理想基准。

使用方法

RAGTruth数据集可用于训练和评估检索增强生成模型中的幻觉检测与预防策略。用户可以通过提供的`response.jsonl`和`source_info.jsonl`文件访问数据，其中`response.jsonl`包含了模型生成的响应及其详细的幻觉标注，而`source_info.jsonl`则提供了生成响应的源信息和任务类型。数据集的结构化格式使得用户能够轻松地进行数据分析和模型训练。

背景与挑战

背景概述

RAGTruth数据集是在2024年初由一支专注于自然语言处理的研究团队发布的，旨在解决检索增强生成（RAG）模型中的幻觉问题。RAG技术已成为缓解大型语言模型（LLMs）幻觉现象的主要方法，然而，即便在RAG框架下，LLMs仍可能生成与检索内容不符或矛盾的陈述。RAGTruth数据集包含了近18,000条由不同LLMs生成的自然响应，这些响应经过精细的手动标注，涵盖了幻觉的强度评估。该数据集的发布为研究者提供了一个基准，用于衡量和开发有效的幻觉预防策略，对提升LLMs的生成质量和可信度具有重要意义。

当前挑战

RAGTruth数据集面临的挑战主要集中在两个方面。首先，构建过程中需要对大量生成的响应进行细致的手动标注，这不仅耗时且成本高昂，还要求标注者具备高度的专业性和一致性。其次，幻觉问题的复杂性使得标注和分类变得尤为困难，尤其是在区分隐含正确信息与显式错误信息时。此外，如何确保数据集的多样性和代表性，以覆盖不同任务和模型生成的幻觉现象，也是该数据集面临的重要挑战。这些挑战不仅影响了数据集的构建效率，也对后续的模型训练和评估提出了更高的要求。

常用场景

经典使用场景

RAGTruth数据集在检索增强生成（RAG）框架下，广泛应用于评估和训练大型语言模型（LLMs）中的幻觉现象。该数据集通过提供近18,000条自然生成的响应，并进行细致的手动标注，帮助研究者量化和分析幻觉的强度和类型。其经典使用场景包括但不限于：模型训练中的幻觉检测、生成响应的准确性评估，以及在不同任务类型（如问答、数据到文本生成和摘要）中对幻觉现象的深入研究。

解决学术问题

RAGTruth数据集解决了在检索增强生成（RAG）框架下，大型语言模型（LLMs）中幻觉现象的量化和预防问题。通过提供详细的幻觉标注和强度评估，该数据集为研究者提供了一个标准化的基准，用于开发和测试有效的幻觉预防策略。这不仅有助于提升模型的生成质量，还为理解幻觉现象的本质提供了重要的学术洞见，推动了自然语言处理领域的进一步发展。

衍生相关工作

RAGTruth数据集的发布和应用，催生了一系列相关的经典工作。例如，基于该数据集的幻觉检测算法研究，推动了模型生成质量的提升；同时，针对不同任务类型（如问答、数据到文本生成和摘要）的幻觉分析，也为特定领域的模型优化提供了新的思路。此外，该数据集还激发了对幻觉现象本质的深入探讨，促进了相关理论和方法的发展，为未来的研究奠定了坚实的基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集