irds/mmarco_zh_dev_v1.1

Name: irds/mmarco_zh_dev_v1.1
Creator: irds
Published: 2023-01-05 03:31:22
License: 暂无描述

Hugging Face2023-01-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/irds/mmarco_zh_dev_v1.1

下载链接

链接失效反馈

官方服务：

资源简介：

`mmarco/zh/dev/v1.1`数据集由`ir-datasets`包提供，主要用于文本检索任务。该数据集包含101,093个查询（即主题），而文档和查询相关性评估数据则需要分别从`irds/mmarco_zh`和`irds/mmarco_zh_dev`数据集中获取。用户可以通过Python的`datasets`库加载这些查询数据，使用示例代码展示了如何访问每个查询的ID和文本内容。此外，数据集的引用信息指向了一篇2021年发表的论文，该论文介绍了mMARCO，即MS MARCO段落排名数据集的多语言版本。

The `mmarco/zh/dev/v1.1` dataset is provided by the `ir-datasets` package and is primarily designed for text retrieval tasks. This dataset contains 101,093 queries (i.e., topics), while document and query relevance assessment data need to be obtained from the `irds/mmarco_zh` and `irds/mmarco_zh_dev` datasets respectively. Users can load these query data via Python's `datasets` library, and the provided sample code demonstrates how to access the ID and text content of each query. Furthermore, the citation information of the dataset refers to a paper published in 2021 that introduces mMARCO, the multilingual version of the MS MARCO passage ranking dataset.

提供机构：

irds

原始信息汇总

数据集概述

数据集名称

mmarco/zh/dev/v1.1

数据来源

irds/mmarco_zh
irds/mmarco_zh_dev

任务类别

文本检索

数据内容

queries: 查询（即主题），数量为101,093个
docs: 使用irds/mmarco_zh数据集
qrels: 使用irds/mmarco_zh_dev数据集

使用示例

python from datasets import load_dataset

queries = load_dataset(irds/mmarco_zh_dev_v1.1, queries) for record in queries: record # {query_id: ..., text: ...}

引用信息

@article{Bonifacio2021MMarco, title={{mMARCO}: A Multilingual Version of {MS MARCO} Passage Ranking Dataset}, author={Luiz Henrique Bonifacio and Israel Campiotti and Roberto Lotufo and Rodrigo Nogueira}, year={2021}, journal={arXiv:2108.13897} }

搜集汇总

数据集介绍

构建方式

在跨语言信息检索领域，mmarco/zh/dev/v1.1数据集作为mMARCO多语言版本的重要组成部分，其构建过程体现了严谨的学术规范。该数据集源自原始的MS MARCO英文数据集，通过专业的翻译流程将查询文本转化为中文版本。构建团队采用了高质量的机器翻译结合人工校验的策略，确保了查询语句在语义上的准确性与自然度。数据集的开发集版本专门用于模型评估，其查询条目经过精心筛选，与对应的文档集和相关性标注相互独立，共同构成了一个完整的评测框架。

使用方法

使用该数据集时，需结合其生态系统中的其他组件。研究者首先通过Hugging Face的`datasets`库加载本数据集的查询部分，获取结构化的查询ID与文本。随后，必须并行加载独立的中文文档集以构建检索库，并加载对应的开发集相关性标注用于模型性能评估。典型的流程涉及利用这些查询对检索系统进行测试，将返回的文档结果与官方提供的相关性判断进行比对，从而计算诸如NDCG、MAP等标准信息检索指标，以客观评估模型在中文段落排序任务上的有效性。

背景与挑战

背景概述

在信息检索领域，跨语言文本检索一直是推动多语言信息获取技术发展的核心议题。mMARCO中文开发数据集（mmarco/zh/dev/v1.1）作为MS MARCO多语言版本的重要组成部分，由Luiz Henrique Bonifacio等研究人员于2021年创建，旨在构建一个高质量的中文查询-文档匹配基准。该数据集依托ir-datasets平台发布，专注于解决中文语境下的段落排序问题，为多语言检索模型提供了关键的评估资源，显著促进了跨语言检索算法在中文场景下的性能优化与比较研究。

当前挑战

该数据集致力于应对中文信息检索中查询与文档语义匹配的复杂性挑战，包括处理中文自然语言的歧义性、同义词多样性以及上下文依赖等难题。在构建过程中，研究人员面临多语言数据对齐的困难，需确保从原始英文MS MARCO到中文翻译的准确性与一致性，同时维护查询-文档对的相关性标注质量。此外，大规模中文语料的收集与清洗，以及跨语言评估标准的建立，均构成了数据集开发中的实质性障碍。

常用场景

经典使用场景

在跨语言信息检索领域，mmarco/zh/dev/v1.1数据集作为中文查询与英文文档匹配的基准测试集，其经典使用场景聚焦于评估检索模型在真实跨语言环境下的性能。该数据集通过提供大规模的中文查询及其对应英文文档的相关性标注，为研究者构建和优化跨语言检索系统提供了标准化的实验平台。在自然语言处理研究中，它常被用于训练和验证神经检索模型、密集检索模型以及多语言表示学习模型，以提升模型在中文查询到英文文档的语义对齐能力。

解决学术问题

该数据集有效解决了跨语言信息检索中语义鸿沟与资源不平衡的学术难题。传统检索系统往往受限于单一语言，而mmarco/zh/dev/v1.1通过构建中文查询与英文文档的关联，为研究跨语言语义匹配、查询翻译消歧以及多语言嵌入对齐提供了数据基础。其意义在于推动了多语言检索模型的发展，促进了信息获取的民主化，使非英语用户能够更高效地访问全球英文知识资源，对自然语言处理领域的国际化研究产生了深远影响。

实际应用

在实际应用中，mmarco/zh/dev/v1.1数据集支撑了多语言搜索引擎、智能客服系统以及跨语言知识库的构建。例如，在全球化企业的内部知识管理系统中，该数据集可用于训练检索模型，帮助中文员工快速定位英文技术文档或市场报告。教育科技领域则利用它开发多语言学习平台，辅助中文学生检索英文学术资料。这些应用显著提升了信息服务的覆盖范围与效率，满足了多元语言环境下的实际需求。

数据集最近研究