irds/mmarco_v2_zh

Name: irds/mmarco_v2_zh
Creator: irds
Published: 2023-01-05 03:30:15
License: 暂无描述

Hugging Face2023-01-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/irds/mmarco_v2_zh

下载链接

链接失效反馈

官方服务：

资源简介：

`mmarco/v2/zh`数据集由ir-datasets包提供，主要用于文本检索任务。该数据集包含8,841,823个文档，这些文档构成了语料库。数据集被用于`mmarco_v2_zh_dev`和`mmarco_v2_zh_train`两个子数据集。

The `mmarco/v2/zh` dataset is provided by the ir-datasets package and is primarily used for text retrieval tasks. It contains 8,841,823 documents that form the corpus. This dataset is split into two subsets: `mmarco_v2_zh_dev` and `mmarco_v2_zh_train`.

提供机构：

irds

原始信息汇总

数据集概述

数据集名称

mmarco/v2/zh

数据集提供者

由 ir-datasets 包提供。

数据集内容

数据类型: docs (文档，即语料库)
文档数量: 8,841,823

数据集用途

该数据集被用于以下两个数据集：

使用示例

python from datasets import load_dataset

docs = load_dataset(irds/mmarco_v2_zh, docs) for record in docs: record # {doc_id: ..., text: ...}

引用信息

@article{Bonifacio2021MMarco, title={{mMARCO}: A Multilingual Version of {MS MARCO} Passage Ranking Dataset}, author={Luiz Henrique Bonifacio and Israel Campiotti and Roberto Lotufo and Rodrigo Nogueira}, year={2021}, journal={arXiv:2108.13897} }

搜集汇总

数据集介绍

构建方式

在信息检索领域，多语言数据集对于推动跨语言检索技术的发展至关重要。mmarco/v2/zh数据集作为MS MARCO多语言版本的一部分，其构建过程基于原始英文MS MARCO数据集，通过专业翻译流程将文档内容转化为中文。该过程确保了翻译的准确性和语义一致性，最终形成了一个包含8,841,823个中文文档的大规模语料库，为中文信息检索任务提供了高质量的基准数据。

特点

该数据集的核心特点在于其纯粹的中文文档集合，专为文本检索任务设计。文档内容覆盖广泛主题，语言表达自然流畅，能够有效模拟真实世界的中文信息环境。作为多语言MS MARCO体系的重要组成，它与其它语言版本保持结构对齐，便于进行跨语言检索的对比研究。数据规模庞大且经过精心处理，为开发与评估中文检索模型提供了可靠的基础。

使用方法

研究人员可通过Hugging Face的datasets库便捷加载此数据集。使用load_dataset函数并指定'irds/mmarco_v2_zh'及'docs'配置，即可访问完整的文档集合。每个文档记录包含文档标识与文本内容，可直接用于索引构建、检索模型训练或评估。该数据集常与配套的开发集和训练集协同使用，以支持端到端的信息检索实验流程。

背景与挑战

背景概述

在信息检索领域，跨语言文本检索一直是研究的热点与难点。mMARCO v2/zh数据集作为MS MARCO多语言版本的重要组成部分，由Luiz Henrique Bonifacio等研究人员于2021年创建，旨在扩展大规模检索数据集至中文语境。该数据集包含超过884万份文档，为核心研究问题——中文段落检索提供了丰富的语料支持，显著推动了多语言信息检索模型的发展，并为相关领域的算法评估与优化奠定了坚实基础。

当前挑战

该数据集致力于解决中文语境下的段落检索问题，其核心挑战在于处理中文语言的复杂语义表达与多样语法结构，这对模型的语义理解与匹配精度提出了较高要求。在构建过程中，研究人员面临文档规模庞大带来的数据处理与标注效率难题，同时需确保多语言版本间数据质量与一致性，以维持评估标准的可靠性。

常用场景

经典使用场景

在信息检索领域，跨语言文本检索是当前研究的热点之一。mmarco/v2/zh数据集作为多语言MS MARCO的中文版本，其经典使用场景主要集中在中文文档的检索与排序任务中。研究者通常利用该数据集构建和评估检索模型，通过对比查询与文档之间的语义匹配度，优化排序算法。该数据集包含超过八百万份中文文档，为模型训练提供了丰富的语料支持，使得在中文环境下实现高效、准确的检索成为可能。

实际应用

在实际应用中，mmarco/v2/zh数据集广泛应用于搜索引擎、智能问答系统和推荐系统等领域。例如，在商业搜索引擎中，该数据集可用于优化中文查询的搜索结果排序，提升用户体验；在智能客服场景下，支持快速检索相关知识文档，提高应答效率。这些应用不仅增强了信息获取的准确性，还推动了中文互联网服务的技术升级，具有显著的社会和经济价值。

衍生相关工作

基于mmarco/v2/zh数据集，衍生了一系列经典研究工作，主要集中在多语言检索模型的开发与评估。例如，研究者利用该数据集训练了基于Transformer的跨语言检索系统，如mBERT和XLM-R的变体，这些模型在中文检索任务中表现出色。此外，该数据集还促进了检索-重排序框架的优化，推动了如DPR、ANCE等先进方法在中文环境下的应用与改进，为后续研究提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集