RAGGED

github2024-05-18 更新2024-05-31 收录

下载链接：

https://github.com/neulab/ragged

下载链接

链接失效反馈

官方服务：

资源简介：

RAGGED框架用于分析和优化检索增强生成系统，特别是在文档基础问答任务中。它研究了两种经典的稀疏和密集检索器，以及四种表现最佳的编码器-解码器和仅解码器架构的LM。

The RAGGED framework is designed for analyzing and optimizing retrieval-augmented generation (RAG) systems, particularly in document-based question answering tasks. It investigates two classic sparse and dense retrievers, as well as four state-of-the-art encoder-decoder and decoder-only language models (LMs).

创建时间：

2023-11-02

原始信息汇总

数据集概述

数据集描述

名称: RAGGED
目的: 用于分析和优化检索增强生成（RAG）系统，特别是在文档基础问答（DBQA）任务中。
特点: 研究了两种经典的稀疏和密集检索器，以及四种表现优异的编码器-解码器和仅解码器架构的语言模型。

数据集内容

下载和处理语料库数据集
- Pubmed语料库: 用于BioASQ，需下载并保存到指定目录。
- KILT Wikipedia语料库: 用于KILT任务，需下载并保存到指定目录。
下载查询数据集
- 支持的数据集: Natural Questions (KILT ver), HotpotQA (KILT ver), BioASQ11B。
- 格式转换: 原始文件需转换为适合ColBERT的格式。
自定义数据集的适配
- BM25格式: 需将语料库和查询格式化为jsonl文件。
- ColBERT格式: 需按照特定指南格式化语料库和查询数据集。

数据集访问

存储位置: 数据集存储于Huggingface，可通过此链接访问。
下载指南: 详细下载和处理步骤见download_data.py文件。

引用信息

论文: RAGGED: Towards Informed Design of Retrieval Augmented Generation Systems
作者: Jennifer Hsia, Afreen Shaikh, Zhiruo Wang, Graham Neubig
年份: 2024
BibTeX引用: bibtex @article{hsia2024ragged, title={RAGGED: Towards Informed Design of Retrieval Augmented Generation Systems}, author={Jennifer Hsia and Afreen Shaikh and Zhiruo Wang and Graham Neubig}, journal={arXiv preprint arXiv:2403.09040}, year={2024} }

搜集汇总

数据集介绍

构建方式

RAGGED数据集的构建基于对检索增强生成（RAG）系统的深入分析，旨在优化其在文档问答（DBQA）任务中的表现。该数据集整合了多种经典稀疏和密集检索器，以及四种顶级编码器-解码器和仅解码器架构的语言模型。通过系统性地研究不同模型的上下文利用习惯，RAGGED揭示了不同模型在RAG配置上的显著差异，特别是编码器-解码器模型与仅解码器模型在文档数量和检索质量上的不同依赖性。

特点

RAGGED数据集的显著特点在于其对不同模型在RAG配置中的适应性进行了细致的分析。研究发现，编码器-解码器模型随着文档数量的增加而单调提升，而仅解码器模型在文档数量超过五个后效果不再显著提升，尽管其上下文窗口通常更长。此外，该数据集还揭示了编码器-解码器模型对上下文的依赖性更强，对检索质量更为敏感，而仅解码器模型则更多依赖于训练过程中记忆的知识。

使用方法

使用RAGGED数据集时，用户首先需通过指定`corpus_dir`和`corpus_name`下载并处理语料库数据，随后下载查询数据并进行格式化以适应BM25或ColBERT检索器。数据集支持Natural Questions、HotpotQA和BioASQ11B等任务。用户还可根据需要自定义数据集，按照BM25或ColBERT的格式要求进行处理。详细的运行和评估指南可在`retriever/README.md`和`reader/README.md`中找到。

背景与挑战

背景概述

RAGGED数据集由Jennifer Hsia、Afreen Shaikh、Zhiruo Wang和Graham Neubig等研究人员于2024年创建，旨在解决检索增强生成（RAG）系统在文档问答（DBQA）任务中的最优配置问题。该数据集通过分析不同模型在稀疏和密集检索器下的表现，揭示了编码器-解码器模型与仅解码器模型在上下文利用上的显著差异。RAGGED不仅为语言模型提供了深入的见解，还为优化RAG系统的设计提供了有力的工具，对自然语言处理领域具有重要的推动作用。

当前挑战

RAGGED数据集面临的挑战主要集中在两个方面：一是如何为不同的模型配置最优的RAG系统，尤其是在编码器-解码器模型和仅解码器模型之间找到平衡；二是数据集构建过程中，如何高效处理和格式化来自PubMed和KILT Wikipedia等不同来源的语料库，以确保检索和生成任务的准确性和效率。此外，数据集的多样性和复杂性也为模型的训练和评估带来了额外的挑战。

常用场景

经典使用场景

RAGGED数据集在文档问答（DBQA）任务中展现了其经典应用场景。通过结合稀疏和密集检索器以及多种编码器-解码器和仅解码器架构的语言模型，RAGGED能够分析和优化检索增强生成（RAG）系统的配置。具体而言，该数据集揭示了不同模型在RAG设置中的适应性差异，例如编码器-解码器模型随着文档数量的增加而单调提升，而仅解码器模型在处理少于五个文档时表现最佳。

解决学术问题

RAGGED数据集解决了检索增强生成系统中配置优化的关键学术问题。通过提供详尽的实验数据和分析框架，RAGGED帮助研究者理解不同语言模型在RAG系统中的上下文利用习惯，揭示了编码器-解码器模型对检索质量的高度敏感性，以及仅解码器模型对训练期间记忆知识的依赖性。这些发现为设计更高效的RAG系统提供了理论依据和实践指导。

衍生相关工作

基于RAGGED数据集的研究工作衍生了一系列相关经典研究。例如，研究者利用RAGGED的分析结果开发了新的检索算法，以提高检索效率和准确性。此外，RAGGED还启发了对不同语言模型架构在RAG系统中表现的深入研究，推动了编码器-解码器和仅解码器模型在实际应用中的优化和选择。这些衍生工作不仅丰富了RAG系统的理论基础，也为实际应用提供了更多可能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集