five

irds/mmarco_v2_zh

收藏
Hugging Face2023-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/irds/mmarco_v2_zh
下载链接
链接失效反馈
官方服务:
资源简介:
`mmarco/v2/zh`数据集由ir-datasets包提供,主要用于文本检索任务。该数据集包含8,841,823个文档,这些文档构成了语料库。数据集被用于`mmarco_v2_zh_dev`和`mmarco_v2_zh_train`两个子数据集。

The `mmarco/v2/zh` dataset is provided by the ir-datasets package and is primarily used for text retrieval tasks. It contains 8,841,823 documents that form the corpus. This dataset is split into two subsets: `mmarco_v2_zh_dev` and `mmarco_v2_zh_train`.
提供机构:
irds
原始信息汇总

数据集概述

数据集名称

mmarco/v2/zh

数据集提供者

ir-datasets 包提供。

数据集内容

  • 数据类型: docs (文档,即语料库)
  • 文档数量: 8,841,823

数据集用途

该数据集被用于以下两个数据集:

使用示例

python from datasets import load_dataset

docs = load_dataset(irds/mmarco_v2_zh, docs) for record in docs: record # {doc_id: ..., text: ...}

引用信息

@article{Bonifacio2021MMarco, title={{mMARCO}: A Multilingual Version of {MS MARCO} Passage Ranking Dataset}, author={Luiz Henrique Bonifacio and Israel Campiotti and Roberto Lotufo and Rodrigo Nogueira}, year={2021}, journal={arXiv:2108.13897} }

搜集汇总
数据集介绍
main_image_url
构建方式
在信息检索领域,多语言数据集对于推动跨语言检索技术的发展至关重要。mmarco/v2/zh数据集作为MS MARCO多语言版本的一部分,其构建过程基于原始英文MS MARCO数据集,通过专业翻译流程将文档内容转化为中文。该过程确保了翻译的准确性和语义一致性,最终形成了一个包含8,841,823个中文文档的大规模语料库,为中文信息检索任务提供了高质量的基准数据。
特点
该数据集的核心特点在于其纯粹的中文文档集合,专为文本检索任务设计。文档内容覆盖广泛主题,语言表达自然流畅,能够有效模拟真实世界的中文信息环境。作为多语言MS MARCO体系的重要组成,它与其它语言版本保持结构对齐,便于进行跨语言检索的对比研究。数据规模庞大且经过精心处理,为开发与评估中文检索模型提供了可靠的基础。
使用方法
研究人员可通过Hugging Face的datasets库便捷加载此数据集。使用load_dataset函数并指定'irds/mmarco_v2_zh'及'docs'配置,即可访问完整的文档集合。每个文档记录包含文档标识与文本内容,可直接用于索引构建、检索模型训练或评估。该数据集常与配套的开发集和训练集协同使用,以支持端到端的信息检索实验流程。
背景与挑战
背景概述
在信息检索领域,跨语言文本检索一直是研究的热点与难点。mMARCO v2/zh数据集作为MS MARCO多语言版本的重要组成部分,由Luiz Henrique Bonifacio等研究人员于2021年创建,旨在扩展大规模检索数据集至中文语境。该数据集包含超过884万份文档,为核心研究问题——中文段落检索提供了丰富的语料支持,显著推动了多语言信息检索模型的发展,并为相关领域的算法评估与优化奠定了坚实基础。
当前挑战
该数据集致力于解决中文语境下的段落检索问题,其核心挑战在于处理中文语言的复杂语义表达与多样语法结构,这对模型的语义理解与匹配精度提出了较高要求。在构建过程中,研究人员面临文档规模庞大带来的数据处理与标注效率难题,同时需确保多语言版本间数据质量与一致性,以维持评估标准的可靠性。
常用场景
经典使用场景
在信息检索领域,跨语言文本检索是当前研究的热点之一。mmarco/v2/zh数据集作为多语言MS MARCO的中文版本,其经典使用场景主要集中在中文文档的检索与排序任务中。研究者通常利用该数据集构建和评估检索模型,通过对比查询与文档之间的语义匹配度,优化排序算法。该数据集包含超过八百万份中文文档,为模型训练提供了丰富的语料支持,使得在中文环境下实现高效、准确的检索成为可能。
实际应用
在实际应用中,mmarco/v2/zh数据集广泛应用于搜索引擎、智能问答系统和推荐系统等领域。例如,在商业搜索引擎中,该数据集可用于优化中文查询的搜索结果排序,提升用户体验;在智能客服场景下,支持快速检索相关知识文档,提高应答效率。这些应用不仅增强了信息获取的准确性,还推动了中文互联网服务的技术升级,具有显著的社会和经济价值。
衍生相关工作
基于mmarco/v2/zh数据集,衍生了一系列经典研究工作,主要集中在多语言检索模型的开发与评估。例如,研究者利用该数据集训练了基于Transformer的跨语言检索系统,如mBERT和XLM-R的变体,这些模型在中文检索任务中表现出色。此外,该数据集还促进了检索-重排序框架的优化,推动了如DPR、ANCE等先进方法在中文环境下的应用与改进,为后续研究提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作