CRUD-RAG

arXiv2024-02-19 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2401.17043v2

下载链接

链接失效反馈

官方服务：

资源简介：

CRUD-RAG是一个全面的基准，用于评估增强生成的大型语言模型在各种应用场景中的表现。它包括四个独特的用例类别：创建、读取、更新和删除，每个类别都代表不同的应用场景。

CRUD-RAG is a comprehensive benchmark designed to evaluate the performance of retrieval-augmented generation (RAG)-enhanced large language models (LLMs) across diverse application scenarios. It includes four distinct use case categories: Create, Read, Update, and Delete, each representing a unique application scenario.

创建时间：

2024-01-30

搜集汇总

数据集介绍

构建方式

CRUD-RAG 数据集的构建方式旨在解决现有 RAG 系统评估的局限性，通过爬取 2023 年 7 月之后未暴露给 LLM 训练的近 30 万条高质量新闻文章，并利用 GPT-4 自动生成数据集。具体而言，数据集分为文本续写、问答（单文档和多文档）、幻觉修改和多文档摘要四个任务，分别对应 CRUD-RAG 分类中的创建、读取、更新和删除场景。例如，多文档摘要任务通过先使用 GPT-4 生成新闻事件和摘要，然后以事件为关键词在网络上搜索相关新闻来构建数据集。文本续写任务则将新闻文本分割为起始部分和延续部分，并使用搜索引擎检索相关文档来构建检索数据库。

特点

CRUD-RAG 数据集具有以下特点：首先，它是一个全面的中国 RAG 基准数据集，涵盖了 RAG 应用场景的创建、读取、更新和删除四个方面。其次，数据集基于最新的高质量新闻数据构建，能够有效评估 RAG 系统的生成能力和对外部知识的利用能力。此外，数据集采用了逆向构建方法，例如多文档摘要任务，通过先生成新闻事件和摘要，再以事件为关键词搜索相关新闻来构建数据集，从而确保了数据集的质量和多样性。

使用方法

CRUD-RAG 数据集可用于评估 RAG 系统在创建、读取、更新和删除场景下的性能。具体使用方法包括：1. 数据准备：将数据集分为训练集和测试集，并对训练集进行预处理，例如分词、向量化等。2. 模型训练：使用训练集训练 RAG 系统，并调整模型参数，例如 chunk size、chunk overlap、embedding model、retriever、top-k 和 LLM 等。3. 模型评估：使用测试集评估 RAG 系统的性能，并选择合适的评估指标，例如 BLEU、ROUGE、bertScore 和 RAGQuestEval 等。4. 结果分析：分析实验结果，并根据分析结果调整模型参数，以优化 RAG 系统的性能。

背景与挑战

背景概述

在自然语言处理领域，大型语言模型（LLMs）在文本生成方面展现出强大的能力，但同时也面临着诸如知识过时和产生“幻觉”内容等局限性。为了克服这些问题，检索增强生成（RAG）技术应运而生，它通过结合外部知识源来增强LLMs的文本生成能力。CRUD-RAG数据集正是在这一背景下诞生的，它由中国科学院大学、上海高级算法研究院、中国人民大学等机构的研究人员共同构建。该数据集旨在为RAG技术的评估提供一个全面的基准，它不仅涵盖了问答场景，还包括了创建、读取、更新和删除（CRUD）四种应用场景，以全面评估RAG系统的性能。

当前挑战

尽管RAG技术在实践中的应用效果已经得到证明，但其实施仍需要大量的调整。RAG系统的整体性能受到多个因素的影响，例如检索模型、外部知识库的构建和语言模型。因此，自动评估RAG系统至关重要。目前，用于评估RAG性能的基准数据集数量有限，创建高质量的评估数据集和进行实验的成本很高。此外，现有的基准数据集主要关注问答任务，忽略了RAG在其他场景中的应用潜力。同时，现有的评估实验通常只关注RAG流程中的LLM部分，而忽略了检索模型和外部知识库构建的重要性。因此，需要一个更全面的基准来评估RAG系统。

常用场景

经典使用场景

CRUD-RAG 数据集作为一项全面的中国基准，旨在评估大型语言模型（LLMs）在检索增强生成（RAG）技术中的性能。该数据集涵盖了 RAG 技术在四个主要应用场景中的应用：创建（Create）、读取（Read）、更新（Update）和删除（Delete）。在“创建”场景中，RAG 系统通过添加相关信息来扩展现有文本，生成诗歌、故事或代码等创造性内容。在“读取”场景中，系统利用外部知识检索来回答问题，解决问答、对话和推理问题，并增加对输入文本的理解。在“更新”场景中，系统使用检索到的内容修复输入文本中的错误，纠正拼写、语法或事实错误，使文本更加准确。在“删除”场景中，系统通过改进检索结果简化输入，删除不必要的细节，并执行文本摘要或简化任务。

解决学术问题

CRUD-RAG 数据集解决了 RAG 系统评估中存在的两个主要问题。首先，现有的基准主要集中在问答任务上，而忽略了 RAG 技术在其他场景中的应用潜力。其次，现有的评估方法通常只关注 RAG 管道中的 LLM 组件，而忽略了检索组件和外部知识库构建的影响。CRUD-RAG 数据集通过引入 CRUD 框架来分类 RAG 应用场景，并构建了四个不同的数据集来评估 RAG 系统在各个场景中的性能。此外，该数据集还分析了检索器、上下文长度、知识库构建和 LLM 等不同组件对 RAG 系统的影响，为优化 RAG 技术提供了有价值的见解。

衍生相关工作

CRUD-RAG 数据集的发布推动了 RAG 技术的发展，并衍生出许多相关的研究工作。例如，一些研究工作专注于优化检索器，以提高检索相关性和准确性。其他研究工作则专注于改进生成器，以生成更准确和流畅的文本。此外，一些研究工作还探索了 RAG 技术在特定领域的应用，例如医疗、法律和金融。CRUD-RAG 数据集为这些研究工作提供了宝贵的评估工具，并促进了 RAG 技术的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集