RAG Dataset Gen

Name: RAG Dataset Gen
Creator: 比勒费尔德大学技术学院
Published: 2024-02-26 20:56:17
License: 暂无描述

arXiv2024-02-26 更新2024-07-23 收录

下载链接：

https://github.com/TKenneweg/RAG_Dataset_Gen

下载链接

链接失效反馈

官方服务：

资源简介：

RAG Dataset Gen是由德国比勒费尔德大学技术学院创建的数据集，专门用于评估Retrieval Augmented Generation (RAG) 系统。该数据集包含256篇文章和相应的问题，主要涉及GPT-4知识截止点之后的事件。数据集的创建过程涉及从维基百科下载文章，筛选出截止点后的文章，并使用GPT-4生成问题。此数据集旨在解决大型语言模型在特定领域和时效性数据上的不足，通过提供外部信息增强模型的输出，特别适用于需要实时信息的应用场景，如聊天机器人。

RAG Dataset Gen is a dataset developed by the Faculty of Technology, University of Bielefeld, Germany, specifically for evaluating Retrieval Augmented Generation (RAG) systems. It comprises 256 articles and their corresponding questions, primarily focusing on events that occurred after the GPT-4 knowledge cutoff. The dataset was constructed by downloading articles from Wikipedia, filtering out those published after the cutoff date, and generating questions using GPT-4. This dataset aims to address the limitations of large language models (LLMs) with respect to domain-specific and time-sensitive data, enhancing model outputs by providing external information, and is particularly suitable for real-time information-reliant application scenarios such as chatbots.

提供机构：

比勒费尔德大学技术学院

创建时间：

2024-02-26

原始信息汇总

数据集创建与评估系统

数据集创建

WikiScrapper：负责从Wikipedia抓取文章，过滤并生成问题。
- scrapeAndSaveArticles(n=200)：抓取并保存200篇文章，输出为A_r。
- filterforDate(foldername+ "/A_r.pkl")：根据日期过滤文章，输出为A_d。
- genQs(foldername+ "/A_d.pkl")：生成问题并添加到文件中，使用GPT。
- filterForRecentness(foldername+ "/A_d.pkl")：根据时效性过滤文章，输出为A_f，使用GPT。

数据集评估

Evaluator：用于评估问题/文章-答案对的真实性和相关性。
- 评估过程将生成一个包含真实性和相关性字段的_scored.pkl文件。

RAG系统

Chatbot：实现RAG系统，已实现Naive RAG。
- genAnswers(f"{foldername}/A_f.pkl", chatbot, description=description)：生成答案并保存为pkl文件，包含当前时间戳以防止不同RAG运行的混淆。

其他功能

Embedding：embedd.py将Wikipedia数据集转换为chroma向量数据库。
Histograms：使用imggen.py生成论文中展示的直方图。

搜集汇总

数据集介绍

构建方式

在检索增强生成系统评估领域，构建高质量数据集面临核心挑战：大型语言模型的训练数据广泛覆盖互联网内容，导致传统数据源如维基百科难以有效评估RAG性能。RAG Dataset Gen采用自动化工作流程，从维基百科中筛选知识截止日期后创建的条目，并利用GPT-4进行二次过滤，确保文章主体内容涉及模型未知的新近事件。随后，通过高温度参数生成多样化问题，形成文章-问题配对数据集，从而构建出能够严格检验RAG系统信息检索与增强能力的基准数据。

使用方法

该数据集主要用于评估和比较不同的检索增强生成系统配置。研究人员可将RAG系统接入数据集，针对每个问题，系统需从外部向量数据库中检索相关信息并生成答案。评估过程采用基于GPT-4的自动化方法，依据提供的真实文章，对生成答案的事实性与相关性进行1至5分的评分。通过分析得分分布与统计指标，可以量化不同RAG策略的性能差异。此外，数据集特别适用于探索布尔代理RAG等高级架构，通过分析检索触发频率与答案质量的关系，为优化系统效率与成本提供实证依据。

背景与挑战

背景概述

在大型语言模型（LLM）迅速发展的背景下，检索增强生成（RAG）系统通过整合领域特定和时效性数据，有效弥补了LLM在知识更新与专业性上的局限。RAG Dataset Gen由比勒费尔德大学的研究团队于2024年提出，旨在解决RAG系统评估中缺乏标准化数据集的难题。该数据集通过自动化流程从维基百科等来源生成问题-文章对，并筛选出LLM训练截止日期后的新信息，为核心研究问题——即如何定量比较不同RAG策略的性能——提供了严谨的评估基础。其创新性工作流程不仅推动了RAG技术的标准化评测，也为后续研究如布尔代理RAG系统的开发奠定了数据支撑，显著提升了该领域研究的可重复性与客观性。

当前挑战

RAG Dataset Gen所应对的领域挑战在于，传统RAG系统评估多依赖轶事证据，缺乏统一、量化的基准数据集，难以客观比较不同增强策略（如布尔代理RAG）在真实性与相关性上的效能。构建过程中的挑战具体体现在两方面：一是数据筛选的复杂性，需从海量网络信息中精准识别LLM训练集未涵盖的时效性内容，避免模型基于内部知识直接作答；二是自动化评估的可靠性，尽管借鉴了G-EVAL等方法，但需确保评估模型与答案生成模型间的知识对称性，同时通过函数调用API提升评分稳定性，以维持评测结果的严谨与一致。

常用场景

经典使用场景

在检索增强生成（RAG）系统研究领域，RAG Dataset Gen 数据集主要用于评估不同RAG策略的性能。该数据集通过自动生成流程，从维基百科等来源筛选出大型语言模型训练截止日期后的文章，并生成对应问题，确保问题答案依赖于外部知识而非模型内部记忆。这一设计使得研究者能够定量比较各种RAG配置在真实性和相关性方面的表现，为系统优化提供基准。

解决学术问题

该数据集解决了RAG系统评估中缺乏标准化基准的学术难题。传统评估常依赖轶事证据，难以量化比较不同方法。通过提供包含时间敏感信息的文章-问题对，数据集使研究者能够精确测量RAG系统在知识增强效果上的差异。其自动评估流程整合了真实性、相关性评分机制，推动了RAG研究从定性描述向严谨定量分析的范式转变。

实际应用

在实际应用中，该数据集为开发高效RAG系统提供了关键测试环境。企业可利用其评估聊天机器人、知识库问答等场景中RAG的效能，优化token使用成本。例如，在布尔代理RAG系统中，数据集帮助验证智能检索触发机制的可行性，指导系统在保持回答质量的同时减少计算资源消耗，适用于需要平衡性能与成本的商业部署。

数据集最近研究