RAGTruth

Name: RAGTruth
Creator: 华中科技大学计算机科学与技术学院
Published: 2025-02-13 16:42:29
License: 暂无描述

arXiv2025-02-13 更新2025-02-27 收录

下载链接：

http://arxiv.org/abs/2502.09073v1

下载链接

链接失效反馈

官方服务：

资源简介：

RAGTruth数据集是由华中科技大学计算机科学与技术学院创建的，用于辅助检索增强生成模型（RAG）的训练。该数据集包含了模型的历史对话记录，旨在通过主动学习方法筛选出最有信息量的样本，进而构建偏好数据集，帮助模型学会拒绝可能导致虚构回答的查询，同时提高对有能力回答的查询的稳定性。数据集的具体内容和创建过程未在论文中详细描述，但提到了其在精炼大型语言模型（LLM）方面的应用，特别是在减少虚构回答和提高回答准确性方面的作用。

The RAGTruth dataset was developed by the School of Computer Science and Technology, Huazhong University of Science and Technology, to support the training of retrieval-augmented generation (RAG) models. This dataset includes historical conversation logs of models, with the goal of screening out the most informative samples via active learning approaches to build a preference dataset. It is designed to help models learn to reject queries that may trigger hallucinatory responses, while enhancing the stability of responses to properly answerable queries. The specific contents and creation procedures of the dataset are not elaborated in the associated paper, but its application in refining large language models (LLMs) is noted, particularly its efficacy in reducing hallucinatory outputs and improving response accuracy.

提供机构：

华中科技大学计算机科学与技术学院

创建时间：

2025-02-13

搜集汇总

数据集介绍

构建方式

RAGTruth数据集的构建采用了主动学习（AL）的策略，从广泛的对话记录中筛选出最有信息量的样本进行标注，以优化性能。该数据集由华中科技大学计算机科学与技术学院和杭州悟道科技联合构建，旨在提高大型语言模型（LLM）在检索增强生成（RAG）任务中的可靠性，减少幻觉现象。RAGTruth数据集的构建过程分为三个步骤：首先，从大量的对话记录中随机选取初始样本进行标注；其次，测量未选中样本与已选中样本之间的相似度；最后，根据相似度评分，选择最具代表性的样本加入已选中集合，重复此过程直到达到标注预算。此外，为了更准确地测量样本之间的距离，RAGTruth数据集还引入了检索增强相似度（ras）作为样本距离的度量方法。

特点

RAGTruth数据集的主要特点是：1. 采用主动学习策略，从大量未标记数据中筛选出最有信息量的样本进行标注，从而在有限的标注预算内构建高质量的数据集；2. 引入检索增强相似度（ras）作为样本距离的度量方法，更准确地测量RAG数据集中样本之间的距离；3. 扩展了RAGTruth数据集，并创建了第一个针对RAG场景的人类偏好数据集，以处理幻觉易发查询和可回答查询。

使用方法

RAGTruth数据集的使用方法如下：1. 利用主动学习策略，从大量的对话记录中筛选出最有信息量的样本进行标注；2. 使用检索增强相似度（ras）作为样本距离的度量方法，构建高质量的人类偏好数据集；3. 使用偏好数据集对RAG模型进行微调，以提高模型在处理幻觉易发查询和可回答查询时的性能。

背景与挑战

背景概述

在自然语言处理领域，大型语言模型（LLMs）在文本分类、摘要和问答等任务中表现出色。然而，这些模型常出现幻觉现象，即生成不准确的回答。检索增强生成（RAG）技术旨在利用外部知识减少幻觉，但仍有挑战。RAGTruth数据集由华中科技大学和iWudao Tech的研究人员创建，旨在解决RAG中幻觉问题。该数据集通过主动学习技术，从大量的对话记录中选择最具代表性的样本进行人工标注，以训练模型避免幻觉问题并准确回答问题。

当前挑战

RAGTruth数据集面临的挑战包括：1) 识别容易产生幻觉的样本或引导LLMs给出正确答案；2) 构建高质量的数据集以优化LLMs。此外，构建过程中还需要解决传统主动学习方法与RAG不兼容的问题，以及如何准确测量RAG数据集中样本的距离。

常用场景

经典使用场景

RAGTruth数据集主要用于提升检索增强生成（RAG）技术，尤其是在处理大型语言模型（LLM）中的幻觉问题。该数据集通过主动学习的方式，从大量的对话记录中筛选出最具有代表性的样本，用于训练LLM模型，使其能够有效地识别并拒绝可能导致幻觉的问题，同时准确回答在其能力范围内的问题。

解决学术问题

RAGTruth数据集解决了LLM模型在RAG场景下难以完全避免幻觉的问题。通过构建高质量的数据集，该数据集帮助模型学习何时拒绝回答，何时提供准确的答案，从而提高了模型生成的内容的可靠性。此外，RAGTruth数据集还扩展了RAG场景下的主动学习方法，通过引入拒绝选项，使得模型能够在面对无法回答的问题时选择不回答，从而提高了模型的整体性能。

衍生相关工作

RAGTruth数据集的提出，促进了RAG场景下的主动学习方法的研究。基于RAGTruth数据集，研究人员提出了AL4RAG框架，该框架使用主动学习来选择最具有代表性的对话样本进行标注，从而优化了RAG模型在有限的标注预算下的性能。此外，RAGTruth数据集还推动了检索增强相似度（RAS）的研究，该相似度测量方法为RAG场景下的样本距离提供了更准确的测量方式，从而提高了样本选择的准确性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集