MuSiQue

Name: MuSiQue
Creator: 耶路撒冷希伯来大学计算机科学与工程学院
Published: 2025-03-06 20:38:17
License: 暂无描述

arXiv2025-03-06 更新2025-03-08 收录

下载链接：

https://github.com/shaharl6000/MoreDocsSameLen

下载链接

链接失效反馈

官方服务：

资源简介：

MuSiQue数据集是基于多跳问答任务构建的，包含2417个可回答问题，每个问题关联20个来自维基百科的文档摘录。数据集设计使得问题可以仅基于其中2-4个文档回答，其余文档作为干扰项。研究通过对文档数量的调整，探讨了文档数量对模型性能的影响。

The MuSiQue dataset is constructed for multi-hop question answering tasks, containing 2417 answerable questions. Each question is associated with 20 document excerpts from Wikipedia. The dataset is designed such that the questions can be answered using only 2 to 4 of these documents, while the remaining documents serve as distractors. This study explores the impact of document quantity on model performance by adjusting the number of provided documents.

提供机构：

耶路撒冷希伯来大学计算机科学与工程学院

创建时间：

2025-03-06

搜集汇总

数据集介绍

构建方式

MuSiQue数据集的构建方式是，首先选取一个问题，然后根据问题从维基百科文章中检索出20个相关文档的摘录。每个问题只需2-4个文档即可回答，其余的文档作为干扰项。在构建不同文档数量的数据集时，逐步移除干扰项文档，同时扩展剩余文档的内容，以保持总字符数不变。

使用方法

使用MuSiQue数据集时，研究者可以控制文档的数量，同时保持上下文长度和关键信息的固定位置不变。这种方法可以用来评估不同数量的文档对大型语言模型在多跳问答任务中的性能影响。

背景与挑战

背景概述

MuSiQue数据集，由Trivedi等人于2022年构建，是一个针对多跳问答任务的基准数据集。该数据集的创建旨在为大型语言模型提供一个包含20个文档摘要的问答环境，每个文档摘要源自维基百科文章，并根据输入问题检索得到。在这些文档中，仅有2至4个包含回答问题所需的信息，其余则作为干扰项。MuSiQue数据集的主要研究人员来自于希伯来大学计算机科学与工程学院，他们在研究中探讨了多文档检索对大型语言模型性能的影响。该数据集对相关领域产生了显著影响，特别是在理解长文本和多个文档处理方面。

当前挑战

该数据集在研究领域中提出了几个关键挑战。首先，如何处理多个文档中的信息冗余、冲突信息以及隐含的文档间关系，这对语言模型构成了独特挑战。其次，研究者在保持上下文长度不变的情况下，发现文档数量的增加会对模型的性能产生负面影响，这意味着在固定长度的输入下，模型处理更多文档的能力受限。此外，构建过程中，如何平衡检索到的文档的相关性和多样性，以减少信息冲突，也是一项重要挑战。

常用场景

经典使用场景

MuSiQue数据集在多文档检索任务中，提供了一个可控制的实验环境，允许研究者在固定长度的输入下，探讨不同数量的文档对大型语言模型（LLM）性能的影响。该数据集的经典使用场景在于，研究者可以通过减少或增加伴随问题相关的文档数量，来观察LLM在处理多文档时的性能变化，进而区分长文本上下文与多文档处理的挑战。

解决学术问题

该数据集解决了学术界在多文档检索增强生成（RAG）系统中存在的一个关键问题，即文档数量的增加可能会降低模型的性能。通过MuSiQue，研究者能够控制文档数量，同时保持上下文长度不变，从而分离出长文本上下文与多文档处理之间的挑战，这对于理解和优化RAG系统至关重要。

实际应用

在实用层面，MuSiQue数据集可以帮助开发者和研究人员理解和优化多文档处理系统，特别是在构建检索增强的生成模型时。该数据集的应用有助于提升模型在处理真实世界多文档情景下的性能，例如自动化问答、信息检索和文本摘要等。

数据集最近研究