five

CRUD-RAG

收藏
arXiv2024-02-19 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2401.17043v2
下载链接
链接失效反馈
官方服务:
资源简介:
CRUD-RAG是一个全面的基准,用于评估增强生成的大型语言模型在各种应用场景中的表现。它包括四个独特的用例类别:创建、读取、更新和删除,每个类别都代表不同的应用场景。

CRUD-RAG is a comprehensive benchmark designed to evaluate the performance of retrieval-augmented generation (RAG)-enhanced large language models (LLMs) across diverse application scenarios. It includes four distinct use case categories: Create, Read, Update, and Delete, each representing a unique application scenario.
创建时间:
2024-01-30
搜集汇总
数据集介绍
main_image_url
构建方式
CRUD-RAG 数据集的构建方式旨在解决现有 RAG 系统评估的局限性,通过爬取 2023 年 7 月之后未暴露给 LLM 训练的近 30 万条高质量新闻文章,并利用 GPT-4 自动生成数据集。具体而言,数据集分为文本续写、问答(单文档和多文档)、幻觉修改和多文档摘要四个任务,分别对应 CRUD-RAG 分类中的创建、读取、更新和删除场景。例如,多文档摘要任务通过先使用 GPT-4 生成新闻事件和摘要,然后以事件为关键词在网络上搜索相关新闻来构建数据集。文本续写任务则将新闻文本分割为起始部分和延续部分,并使用搜索引擎检索相关文档来构建检索数据库。
特点
CRUD-RAG 数据集具有以下特点:首先,它是一个全面的中国 RAG 基准数据集,涵盖了 RAG 应用场景的创建、读取、更新和删除四个方面。其次,数据集基于最新的高质量新闻数据构建,能够有效评估 RAG 系统的生成能力和对外部知识的利用能力。此外,数据集采用了逆向构建方法,例如多文档摘要任务,通过先生成新闻事件和摘要,再以事件为关键词搜索相关新闻来构建数据集,从而确保了数据集的质量和多样性。
使用方法
CRUD-RAG 数据集可用于评估 RAG 系统在创建、读取、更新和删除场景下的性能。具体使用方法包括:1. 数据准备:将数据集分为训练集和测试集,并对训练集进行预处理,例如分词、向量化等。2. 模型训练:使用训练集训练 RAG 系统,并调整模型参数,例如 chunk size、chunk overlap、embedding model、retriever、top-k 和 LLM 等。3. 模型评估:使用测试集评估 RAG 系统的性能,并选择合适的评估指标,例如 BLEU、ROUGE、bertScore 和 RAGQuestEval 等。4. 结果分析:分析实验结果,并根据分析结果调整模型参数,以优化 RAG 系统的性能。
背景与挑战
背景概述
在自然语言处理领域,大型语言模型(LLMs)在文本生成方面展现出强大的能力,但同时也面临着诸如知识过时和产生“幻觉”内容等局限性。为了克服这些问题,检索增强生成(RAG)技术应运而生,它通过结合外部知识源来增强LLMs的文本生成能力。CRUD-RAG数据集正是在这一背景下诞生的,它由中国科学院大学、上海高级算法研究院、中国人民大学等机构的研究人员共同构建。该数据集旨在为RAG技术的评估提供一个全面的基准,它不仅涵盖了问答场景,还包括了创建、读取、更新和删除(CRUD)四种应用场景,以全面评估RAG系统的性能。
当前挑战
尽管RAG技术在实践中的应用效果已经得到证明,但其实施仍需要大量的调整。RAG系统的整体性能受到多个因素的影响,例如检索模型、外部知识库的构建和语言模型。因此,自动评估RAG系统至关重要。目前,用于评估RAG性能的基准数据集数量有限,创建高质量的评估数据集和进行实验的成本很高。此外,现有的基准数据集主要关注问答任务,忽略了RAG在其他场景中的应用潜力。同时,现有的评估实验通常只关注RAG流程中的LLM部分,而忽略了检索模型和外部知识库构建的重要性。因此,需要一个更全面的基准来评估RAG系统。
常用场景
经典使用场景
CRUD-RAG 数据集作为一项全面的中国基准,旨在评估大型语言模型(LLMs)在检索增强生成(RAG)技术中的性能。该数据集涵盖了 RAG 技术在四个主要应用场景中的应用:创建(Create)、读取(Read)、更新(Update)和删除(Delete)。在“创建”场景中,RAG 系统通过添加相关信息来扩展现有文本,生成诗歌、故事或代码等创造性内容。在“读取”场景中,系统利用外部知识检索来回答问题,解决问答、对话和推理问题,并增加对输入文本的理解。在“更新”场景中,系统使用检索到的内容修复输入文本中的错误,纠正拼写、语法或事实错误,使文本更加准确。在“删除”场景中,系统通过改进检索结果简化输入,删除不必要的细节,并执行文本摘要或简化任务。
解决学术问题
CRUD-RAG 数据集解决了 RAG 系统评估中存在的两个主要问题。首先,现有的基准主要集中在问答任务上,而忽略了 RAG 技术在其他场景中的应用潜力。其次,现有的评估方法通常只关注 RAG 管道中的 LLM 组件,而忽略了检索组件和外部知识库构建的影响。CRUD-RAG 数据集通过引入 CRUD 框架来分类 RAG 应用场景,并构建了四个不同的数据集来评估 RAG 系统在各个场景中的性能。此外,该数据集还分析了检索器、上下文长度、知识库构建和 LLM 等不同组件对 RAG 系统的影响,为优化 RAG 技术提供了有价值的见解。
衍生相关工作
CRUD-RAG 数据集的发布推动了 RAG 技术的发展,并衍生出许多相关的研究工作。例如,一些研究工作专注于优化检索器,以提高检索相关性和准确性。其他研究工作则专注于改进生成器,以生成更准确和流畅的文本。此外,一些研究工作还探索了 RAG 技术在特定领域的应用,例如医疗、法律和金融。CRUD-RAG 数据集为这些研究工作提供了宝贵的评估工具,并促进了 RAG 技术的进一步发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作