mMARCO

Name: mMARCO
Creator: 坎皮纳斯大学神经网络实验室
Published: 2022-08-18 01:22:19
License: 暂无描述

arXiv2022-08-18 更新2024-06-21 收录

下载链接：

https://github.com/unicamp-dl/mMARCO

下载链接

链接失效反馈

官方服务：

资源简介：

mMARCO是一个多语言版本的MS MARCO段落排序数据集，由坎皮纳斯大学神经网络实验室创建，包含13种语言。该数据集通过机器翻译创建，旨在解决非英语语言在信息检索任务中训练资源稀缺的问题。数据集包含超过53万条查询-段落相关对，适用于训练和评估深度学习模型。mMARCO的创建不仅丰富了多语言信息检索的训练资源，还通过零样本学习场景的评估，展示了其对提升模型效果的潜力。

mMARCO is a multilingual variant of the MS MARCO passage ranking dataset, developed by the Neural Networks Lab at the University of Campinas and covering 13 languages. Constructed via machine translation, this dataset aims to address the scarcity of training resources for non-English languages in information retrieval tasks. It contains over 530,000 query-passage relevance pairs, suitable for training and evaluating deep learning models. Beyond enriching the training resources for multilingual information retrieval, mMARCO also demonstrates its potential to enhance model performance through evaluations in zero-shot learning scenarios.

提供机构：

坎皮纳斯大学神经网络实验室

创建时间：

2021-08-31

搜集汇总

数据集介绍

构建方式

mMARCO数据集的构建主要依赖于机器翻译技术，将英语的MS MARCO passage ranking dataset翻译成了13种不同的语言。研究者们选择了世界使用人数最多、维基百科文章数量最多以及Helsinki翻译模型支持的语言对作为翻译目标。翻译过程中，研究者们将MS MARCO的段落拆分为句子进行翻译，然后将翻译后的句子重新组合成段落。对于查询语句，则直接进行翻译。翻译完成后，研究者们使用原始数据集中的三元组（一个查询和对应的正负段落）创建了多语言训练集，并使用这些建立的训练集对单语言和多语言深度学习模型进行了微调。

使用方法

使用mMARCO数据集的方法主要包括两个方面：微调单语言和多语言深度学习模型，以及在零样本场景下评估模型。微调过程主要使用mMARCO数据集进行，包括密集检索和重新排序方法。在零样本场景下，研究者们使用在9种语言上微调的模型直接在mMARCO数据集中未包含的另外4种语言上进行评估，结果表明，多语言模型在零样本场景下也取得了优异的性能。此外，mMARCO数据集及其微调模型已在HuggingFace上公开发布，可供研究者和实践者使用。

背景与挑战

背景概述

mMARCO数据集的创建旨在解决多语言信息检索领域中数据集稀缺的问题。该数据集由巴西坎皮纳斯大学的NeuralMind团队创建，是对广泛用于训练深度学习模型进行信息检索（IR）任务的MS MARCO数据集的多语言版本。mMARCO数据集包含了13种语言，通过机器翻译的方式生成。该数据集的创建填补了多语言信息检索领域中高质量标注数据集的空白，为研究人员和实践者提供了探索模型架构和训练算法的多样性。同时，mMARCO数据集的创建也证明了通过自动翻译的方式获取多语言资源是可行的，并且可以用于评估深度学习模型的有效性。

当前挑战

mMARCO数据集的创建和构建过程中面临着一些挑战。首先，多语言信息检索领域中高质量标注数据集的稀缺性是一个主要挑战。其次，构建多语言数据集需要考虑语言之间的差异和翻译质量对检索效果的影响。此外，mMARCO数据集的构建过程中还涉及到翻译模型的选择和翻译方法的确定。为了解决这些挑战，研究团队采用了自动翻译的方法，并选择了13种具有代表性的语言进行翻译。同时，研究团队还评估了不同翻译模型对检索效果的影响，并通过实验证明了翻译质量与检索效果之间的正相关关系。

常用场景

经典使用场景

mMARCO数据集作为MS MARCO的多元语言版本，旨在解决跨语言信息检索（IR）任务中数据集稀缺的问题。该数据集包含了13种语言的文本，通过机器翻译的方式从原始的英语数据集中生成。这使得研究人员和从业者能够在不同语言环境中探索模型架构和训练算法的不同方面，从而推动多元语言模型的发展。

解决学术问题

mMARCO数据集解决了跨语言信息检索任务中数据集稀缺的问题。该数据集的创建使得研究人员能够在多种语言环境中进行模型的训练和评估，从而推动多元语言模型的发展。此外，mMARCO数据集也展示了多元语言模型在零样本场景下的有效性，即在一个语言上训练的模型能够在其他语言上取得良好的效果。

实际应用

mMARCO数据集的实际应用场景主要在于跨语言信息检索。例如，在搜索引擎中，用户可能会使用非英语语言进行查询，而mMARCO数据集可以帮助模型理解并返回与查询相关的非英语语言文档。此外，mMARCO数据集还可以用于机器翻译、跨语言问答等任务。

数据集最近研究