five

RAGGED

收藏
github2024-05-18 更新2024-05-31 收录
下载链接:
https://github.com/neulab/ragged
下载链接
链接失效反馈
官方服务:
资源简介:
RAGGED框架用于分析和优化检索增强生成系统,特别是在文档基础问答任务中。它研究了两种经典的稀疏和密集检索器,以及四种表现最佳的编码器-解码器和仅解码器架构的LM。

The RAGGED framework is designed for analyzing and optimizing retrieval-augmented generation (RAG) systems, particularly in document-based question answering tasks. It investigates two classic sparse and dense retrievers, as well as four state-of-the-art encoder-decoder and decoder-only language models (LMs).
创建时间:
2023-11-02
原始信息汇总

数据集概述

数据集描述

  • 名称: RAGGED
  • 目的: 用于分析和优化检索增强生成(RAG)系统,特别是在文档基础问答(DBQA)任务中。
  • 特点: 研究了两种经典的稀疏和密集检索器,以及四种表现优异的编码器-解码器和仅解码器架构的语言模型。

数据集内容

  1. 下载和处理语料库数据集

    • Pubmed语料库: 用于BioASQ,需下载并保存到指定目录。
    • KILT Wikipedia语料库: 用于KILT任务,需下载并保存到指定目录。
  2. 下载查询数据集

    • 支持的数据集: Natural Questions (KILT ver), HotpotQA (KILT ver), BioASQ11B。
    • 格式转换: 原始文件需转换为适合ColBERT的格式。
  3. 自定义数据集的适配

    • BM25格式: 需将语料库和查询格式化为jsonl文件。
    • ColBERT格式: 需按照特定指南格式化语料库和查询数据集。

数据集访问

  • 存储位置: 数据集存储于Huggingface,可通过此链接访问。
  • 下载指南: 详细下载和处理步骤见download_data.py文件。

引用信息

  • 论文: RAGGED: Towards Informed Design of Retrieval Augmented Generation Systems
  • 作者: Jennifer Hsia, Afreen Shaikh, Zhiruo Wang, Graham Neubig
  • 年份: 2024
  • BibTeX引用: bibtex @article{hsia2024ragged, title={RAGGED: Towards Informed Design of Retrieval Augmented Generation Systems}, author={Jennifer Hsia and Afreen Shaikh and Zhiruo Wang and Graham Neubig}, journal={arXiv preprint arXiv:2403.09040}, year={2024} }
搜集汇总
数据集介绍
main_image_url
构建方式
RAGGED数据集的构建基于对检索增强生成(RAG)系统的深入分析,旨在优化其在文档问答(DBQA)任务中的表现。该数据集整合了多种经典稀疏和密集检索器,以及四种顶级编码器-解码器和仅解码器架构的语言模型。通过系统性地研究不同模型的上下文利用习惯,RAGGED揭示了不同模型在RAG配置上的显著差异,特别是编码器-解码器模型与仅解码器模型在文档数量和检索质量上的不同依赖性。
特点
RAGGED数据集的显著特点在于其对不同模型在RAG配置中的适应性进行了细致的分析。研究发现,编码器-解码器模型随着文档数量的增加而单调提升,而仅解码器模型在文档数量超过五个后效果不再显著提升,尽管其上下文窗口通常更长。此外,该数据集还揭示了编码器-解码器模型对上下文的依赖性更强,对检索质量更为敏感,而仅解码器模型则更多依赖于训练过程中记忆的知识。
使用方法
使用RAGGED数据集时,用户首先需通过指定`corpus_dir`和`corpus_name`下载并处理语料库数据,随后下载查询数据并进行格式化以适应BM25或ColBERT检索器。数据集支持Natural Questions、HotpotQA和BioASQ11B等任务。用户还可根据需要自定义数据集,按照BM25或ColBERT的格式要求进行处理。详细的运行和评估指南可在`retriever/README.md`和`reader/README.md`中找到。
背景与挑战
背景概述
RAGGED数据集由Jennifer Hsia、Afreen Shaikh、Zhiruo Wang和Graham Neubig等研究人员于2024年创建,旨在解决检索增强生成(RAG)系统在文档问答(DBQA)任务中的最优配置问题。该数据集通过分析不同模型在稀疏和密集检索器下的表现,揭示了编码器-解码器模型与仅解码器模型在上下文利用上的显著差异。RAGGED不仅为语言模型提供了深入的见解,还为优化RAG系统的设计提供了有力的工具,对自然语言处理领域具有重要的推动作用。
当前挑战
RAGGED数据集面临的挑战主要集中在两个方面:一是如何为不同的模型配置最优的RAG系统,尤其是在编码器-解码器模型和仅解码器模型之间找到平衡;二是数据集构建过程中,如何高效处理和格式化来自PubMed和KILT Wikipedia等不同来源的语料库,以确保检索和生成任务的准确性和效率。此外,数据集的多样性和复杂性也为模型的训练和评估带来了额外的挑战。
常用场景
经典使用场景
RAGGED数据集在文档问答(DBQA)任务中展现了其经典应用场景。通过结合稀疏和密集检索器以及多种编码器-解码器和仅解码器架构的语言模型,RAGGED能够分析和优化检索增强生成(RAG)系统的配置。具体而言,该数据集揭示了不同模型在RAG设置中的适应性差异,例如编码器-解码器模型随着文档数量的增加而单调提升,而仅解码器模型在处理少于五个文档时表现最佳。
解决学术问题
RAGGED数据集解决了检索增强生成系统中配置优化的关键学术问题。通过提供详尽的实验数据和分析框架,RAGGED帮助研究者理解不同语言模型在RAG系统中的上下文利用习惯,揭示了编码器-解码器模型对检索质量的高度敏感性,以及仅解码器模型对训练期间记忆知识的依赖性。这些发现为设计更高效的RAG系统提供了理论依据和实践指导。
衍生相关工作
基于RAGGED数据集的研究工作衍生了一系列相关经典研究。例如,研究者利用RAGGED的分析结果开发了新的检索算法,以提高检索效率和准确性。此外,RAGGED还启发了对不同语言模型架构在RAG系统中表现的深入研究,推动了编码器-解码器和仅解码器模型在实际应用中的优化和选择。这些衍生工作不仅丰富了RAG系统的理论基础,也为实际应用提供了更多可能性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作