RAG-Instruct Dataset

github2025-01-06 更新2025-01-07 收录

下载链接：

https://github.com/FreedomIntelligence/RAG-Instruct

下载链接

链接失效反馈

官方服务：

资源简介：

RAG-Instruct是一种生成多样化和高质量RAG指令数据的方法。它基于任何源语料库合成指令数据集，利用五种RAG范式和指令模拟来增强模型在各种任务中的泛化能力。通过这种方法，我们从维基百科构建了一个包含40K指令的数据集，涵盖了广泛的RAG场景和任务。

RAG-Instruct is a methodology for generating diverse and high-quality RAG instruction data. It synthesizes instruction datasets from arbitrary source corpora, leveraging five RAG paradigms and instruction simulation to enhance the generalization capability of models across various tasks. Using this approach, we constructed a dataset containing 40K instructions from Wikipedia, which covers a wide range of RAG scenarios and tasks.

创建时间：

2024-12-31

原始信息汇总

RAG-Instruct 数据集概述

数据集简介

RAG-Instruct 是一种生成多样化且高质量的 RAG 指令数据的方法。它基于任何源语料库合成指令数据集，利用以下方法：

五种 RAG 范式：代表多样化的查询-文档关系，以增强模型在任务中的泛化能力。
指令模拟：利用现有指令数据集的优势，丰富指令的多样性和质量。

通过这种方法，从维基百科构建了一个包含 40K 条指令的数据集，涵盖了广泛的 RAG 场景和任务。RAG-Instruct 显著增强了 LLMs 的 RAG 能力，在各种任务中表现出显著的性能提升。

数据集内容

数据量：40K 条指令数据。
数据来源：基于维基百科的多样化 RAG 指令数据。
数据下载：RAG-Instruct (Wikipedia)

数据构建方法

下载源文档：使用 DPR 预处理的段落数据和 Contriever-MSMARCO 生成的嵌入。
准备示例数据集：使用多个高质量数据集作为示例，包括 ShareGPT、Alpaca、WizardLM-70K、Lmsys-chat-1M 和 SlimOrca。
使用提示合成数据：使用检索到的文档和示例数据，通过定制的提示合成新的数据点。
运行检索器：在合成的 RAG-Instruct 数据集上执行检索，确保每个数据条目包含所有源文档和足够的无关文档。

模型

RAG-Instruct-Llama3-3B：基于 LLaMA-3.2-3B 的模型。
RAG-Instruct-Llama3-8B：基于 LLaMA-3.1-8B 的模型。

训练

微调：使用 RAG-Instruct 数据集对大型模型进行微调，显著提升 RAG 能力。

评估

评估工具：使用 Sglang 进行模型部署和评估。
评估数据集：提供 PopQA 数据集进行评估。

引用

@misc{liu2024raginstructboostingllmsdiverse, title={RAG-Instruct: Boosting LLMs with Diverse Retrieval-Augmented Instructions}, author={Wanlong Liu and Junying Chen and Ke Ji and Li Zhou and Wenyu Chen and Benyou Wang}, year={2024}, eprint={2501.00353}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2501.00353}, }

搜集汇总

数据集介绍

构建方式

RAG-Instruct数据集的构建过程基于多样化的检索增强指令生成方法。首先，从预处理的维基百科段落数据中提取源文档，并结合Contriever-MSMARCO生成的嵌入进行文档匹配。随后，利用多个高质量数据集（如ShareGPT、Alpaca等）作为示例数据，通过GPT-4o筛选出知识密集型问题，并与源文档进行相关性排序。最终，通过定制的提示模板生成多样化的指令数据，确保覆盖广泛的RAG场景和任务。

特点

RAG-Instruct数据集的特点在于其多样性和高质量。该数据集包含40,000条指令数据，涵盖了五种不同的RAG范式，能够显著增强大型语言模型在检索增强生成任务中的表现。通过结合多种查询-文档关系，数据集提升了模型在多种任务上的泛化能力，如问答、推理和知识密集型任务。此外，数据集还通过指令模拟技术进一步丰富了指令的多样性，确保模型能够应对复杂的现实场景。

使用方法

RAG-Instruct数据集的使用方法主要包括数据下载、模型微调和评估。用户可以从Hugging Face平台下载数据集，并通过提供的脚本进行数据合成和检索。模型微调过程支持使用DeepSpeed等工具进行多节点训练，以提升模型的RAG能力。评估阶段则通过Sglang工具部署模型，并使用PopQA等数据集进行性能测试。用户还可以根据需求自定义评估流程，进一步验证模型在特定任务上的表现。

背景与挑战

背景概述

RAG-Instruct数据集由FreedomIntelligence团队于2024年推出，旨在通过多样化的检索增强指令数据提升大语言模型（LLMs）的检索增强生成（RAG）能力。该数据集基于Wikipedia构建，涵盖了40,000条指令数据，通过五种RAG范式模拟多样化的查询-文档关系，并结合现有指令数据集的优势，生成高质量的指令数据。RAG-Instruct显著提升了LLMs在多种任务中的RAG性能，如问答、推理等，推动了自然语言处理领域的发展。

当前挑战

RAG-Instruct数据集在构建过程中面临的主要挑战包括：1) 如何生成多样化的指令数据以覆盖广泛的RAG场景，确保模型在不同任务中的泛化能力；2) 如何从大规模语料库中高效检索相关文档，并确保检索结果的质量与多样性；3) 如何结合现有指令数据集的优势，生成高质量的指令数据，避免数据冗余与噪声。此外，数据集的构建还依赖于复杂的检索与生成流程，如何在保证数据质量的同时提升构建效率，也是该数据集面临的重要技术挑战。

常用场景

经典使用场景

RAG-Instruct数据集在自然语言处理领域中被广泛应用于增强大型语言模型（LLMs）的检索增强生成（RAG）能力。通过结合多样化的检索增强指令，该数据集能够显著提升模型在问答、阅读理解等任务中的表现。特别是在知识密集型任务中，RAG-Instruct通过模拟多种查询-文档关系，帮助模型更好地理解和生成复杂的文本内容。

实际应用

在实际应用中，RAG-Instruct数据集被广泛用于构建智能问答系统、知识库增强的对话系统以及信息检索工具。通过该数据集训练的模型能够更准确地从大规模文档中检索相关信息，并生成高质量的答案。例如，在医疗领域，该数据集可以帮助构建基于PubMed文献的智能问答系统，提升医生和研究人员获取信息的效率。

衍生相关工作

RAG-Instruct数据集衍生了许多相关研究工作，特别是在检索增强生成领域。基于该数据集的研究成果推动了LLMs在知识密集型任务中的性能提升，并催生了多个改进模型和算法。例如，基于RAG-Instruct的Llama3-8B模型在多个基准测试中表现优异，进一步推动了RAG技术在自然语言处理中的应用和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集