MoreDocsSameLen

github2025-03-13 更新2025-03-11 收录

下载链接：

https://github.com/shaharl6000/MoreDocsSameLen

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于研究在检索增强生成（RAG）系统中，文档多样性对性能的影响。数据集基于维基百科，包含不同数量的文档但相同数量的标记，通过调整关键文档的长度来创建不同的数据集。数据集包括控制集、原始数据集以及替换了干扰文档的变体。

This dataset is designed to investigate the impact of document diversity on the performance of retrieval-augmented generation (RAG) systems. Based on Wikipedia, it encompasses datasets with varying numbers of documents but an identical total token count, which are generated by adjusting the lengths of key documents. The dataset includes a control set, the original dataset, and variants with some documents replaced by distractor documents.

创建时间：

2025-03-06

原始信息汇总

数据集概述

数据集名称

More Documents, Same Length: Isolating the Challenge of Multiple Documents in RAG

数据集描述

该数据集用于研究在固定上下文大小的检索增强生成（RAG）系统中，文档多样性的影响。数据集通过调整每个问题的关键文档长度，创建具有相同令牌数量但文档数量不同的多个数据集。

主要结论

添加更多检索文档可能会降低性能，在固定上下文设置中性能下降可达10%，使得文档丰富的检索任务更具挑战性。
Llama-3.1和Gemma-2性能下降，Qwen-2保持稳定，较小的LLM（7-9B）跟随趋势但影响较小。

方法论

起始于基于维基百科的衍生数据集，通过调整每个问题的关键文档长度，创建具有相同令牌数量但文档数量更少的不同数据集。
数据集使用相同的单跳问题和支持文档（包含关键信息），同时变化干扰文档。

数据集获取

可以从这里下载不同的基准数据集。
也可以使用scripts/create_various_sets.py脚本来重新生成数据集。

使用说明

需要设置运行环境，安装相关依赖。
提供了预测和评估的脚本和配置文件。

引用信息

@misc{levy2025documentslengthisolatingchallenge, title={More Documents, Same Length: Isolating the Challenge of Multiple Documents in RAG}, author={Shahar Levy and Nir Mazor and Lihi Shalmon and Michael Hassid and Gabriel Stanovsky}, year={2025}, eprint={2503.04388}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2503.04388}, }

搜集汇总

数据集介绍

构建方式

该数据集的构建基于维基百科内容，通过调整关键文档的长度以保持相同的token数量，从而创建不同文档数量的数据集。具体而言，研究者们从20个文档开始，省略重复的文档并延长剩余文档的长度以匹配原始大小，以此研究文档多样性对检索增强生成（RAG）系统性能的影响。

使用方法

使用该数据集，首先需要从提供的链接下载不同的基准数据集，或使用脚本重新生成。准备运行环境后，用户可以通过配置文件定义数据集路径、批量大小和LLM解码温度来运行预测。针对不同大小的模型，提供了本地运行和通过Together平台运行的选项。评估预测结果时，可以使用提供的脚本，并将结果保存到指定的输出路径。

背景与挑战

背景概述

Wikipedia-derived dataset是针对检索增强生成（Retrieval-Augmented Generation, RAG）系统中文档多样性影响的研究而构建的数据集。该数据集由Shahar Levy、Nir Mazor、Lihi Shalmon、Michael Hassid和Gabriel Stanovsky等研究人员于2025年创建，旨在探讨在固定上下文大小的情况下，增加检索到的文档数量对系统性能的影响。该研究通过对比不同文档数量的数据集，分析了文档丰富检索任务的难度，以及不同大小语言模型在此类任务中的表现，为相关领域提供了重要的实证研究基础。

当前挑战

该数据集在构建过程中所遇到的挑战主要包括如何在固定上下文大小的限制下，合理地调整文档长度以隔离文档多样性的影响。研究结果表明，增加检索到的文档数量可能会降低性能，高达10%的性能下降，使得文档丰富的检索任务更具挑战性。此外，系统需要平衡相关性和多样性以减少冲突，未来的模型可能需要通过过滤掉矛盾的细节来提升性能，这些均为后续研究提出了新的挑战。

常用场景

经典使用场景

Wikipedia-derived dataset 数据集被广泛用于研究检索增强生成（Retrieval-Augmented Generation, RAG）系统在文档多样性方面的挑战。该数据集通过调整每个问题的关键文档长度，创建了具有相同标记数量但文档数量不同的多个集合，从而在固定上下文大小的情况下，探究文档多样性的影响。经典使用场景包括构建和评估不同文档数量对生成性能的影响，以及分析模型如何平衡相关性和多样性。

解决学术问题

该数据集解决了在固定上下文大小的RAG系统中，如何处理多文档带来的性能下降问题。研究表明，增加更多检索文档可能会导致性能下降，最高达10%。这一发现对于理解文档丰富检索任务的难度提升具有重要意义，并为未来模型的设计提供了方向，如通过过滤矛盾细节来改进模型。

实际应用

在实际应用中，Wikipedia-derived dataset 可用于优化文档检索系统，提高生成文本的准确性和多样性。它有助于改进信息检索和文本生成任务，特别是在需要从大量文档中提取信息并生成连贯叙述的场合，如问答系统、内容摘要和自动写作。

数据集最近研究