irds/msmarco-passage
收藏Hugging Face2023-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/irds/msmarco-passage
下载链接
链接失效反馈官方服务:
资源简介:
---
pretty_name: '`msmarco-passage`'
viewer: false
source_datasets: []
task_categories:
- text-retrieval
---
# Dataset Card for `msmarco-passage`
The `msmarco-passage` dataset, provided by the [ir-datasets](https://ir-datasets.com/) package.
For more information about the dataset, see the [documentation](https://ir-datasets.com/msmarco-passage#msmarco-passage).
# Data
This dataset provides:
- `docs` (documents, i.e., the corpus); count=8,841,823
This dataset is used by: [`msmarco-passage_dev`](https://huggingface.co/datasets/irds/msmarco-passage_dev), [`msmarco-passage_dev_judged`](https://huggingface.co/datasets/irds/msmarco-passage_dev_judged), [`msmarco-passage_eval`](https://huggingface.co/datasets/irds/msmarco-passage_eval), [`msmarco-passage_train_triples-small`](https://huggingface.co/datasets/irds/msmarco-passage_train_triples-small), [`msmarco-passage_train_triples-v2`](https://huggingface.co/datasets/irds/msmarco-passage_train_triples-v2), [`msmarco-passage_trec-dl-hard`](https://huggingface.co/datasets/irds/msmarco-passage_trec-dl-hard), [`msmarco-passage_trec-dl-hard_fold1`](https://huggingface.co/datasets/irds/msmarco-passage_trec-dl-hard_fold1), [`msmarco-passage_trec-dl-hard_fold2`](https://huggingface.co/datasets/irds/msmarco-passage_trec-dl-hard_fold2), [`msmarco-passage_trec-dl-hard_fold3`](https://huggingface.co/datasets/irds/msmarco-passage_trec-dl-hard_fold3), [`msmarco-passage_trec-dl-hard_fold4`](https://huggingface.co/datasets/irds/msmarco-passage_trec-dl-hard_fold4), [`msmarco-passage_trec-dl-hard_fold5`](https://huggingface.co/datasets/irds/msmarco-passage_trec-dl-hard_fold5)
## Usage
```python
from datasets import load_dataset
docs = load_dataset('irds/msmarco-passage', 'docs')
for record in docs:
record # {'doc_id': ..., 'text': ...}
```
Note that calling `load_dataset` will download the dataset (or provide access instructions when it's not public) and make a copy of the
data in 🤗 Dataset format.
## Citation Information
```
@inproceedings{Bajaj2016Msmarco,
title={MS MARCO: A Human Generated MAchine Reading COmprehension Dataset},
author={Payal Bajaj, Daniel Campos, Nick Craswell, Li Deng, Jianfeng Gao, Xiaodong Liu, Rangan Majumder, Andrew McNamara, Bhaskar Mitra, Tri Nguyen, Mir Rosenberg, Xia Song, Alina Stoica, Saurabh Tiwary, Tong Wang},
booktitle={InCoCo@NIPS},
year={2016}
}
```
---
pretty_name: '`msmarco-passage`'
viewer: 禁用可视化查看
source_datasets: []
任务类别:
- 文本检索(text-retrieval)
---
# `msmarco-passage` 数据集卡片
本`msmarco-passage`数据集由[ir-datasets](https://ir-datasets.com/)工具包提供。如需了解该数据集的更多详情,请参阅[官方文档](https://ir-datasets.com/msmarco-passage#msmarco-passage)。
# 数据
本数据集包含:
- `docs`(文档,即语料库);总条数为8,841,823
本数据集被以下数据集使用:`msmarco-passage_dev`、`msmarco-passage_dev_judged`、`msmarco-passage_eval`、`msmarco-passage_train_triples-small`、`msmarco-passage_train_triples-v2`、`msmarco-passage_trec-dl-hard`、`msmarco-passage_trec-dl-hard_fold1`、`msmarco-passage_trec-dl-hard_fold2`、`msmarco-passage_trec-dl-hard_fold3`、`msmarco-passage_trec-dl-hard_fold4`、`msmarco-passage_trec-dl-hard_fold5`
## 使用方法
python
from datasets import load_dataset
docs = load_dataset('irds/msmarco-passage', 'docs')
for record in docs:
record # {'doc_id': ..., 'text': ...}
请注意,调用`load_dataset`将下载该数据集(若数据集未公开,则会提供获取指引),并将数据转换为🤗 Dataset格式后加载。
## 引用信息
@inproceedings{Bajaj2016Msmarco,
title={MS MARCO: A Human Generated MAchine Reading COmprehension Dataset},
author={Payal Bajaj, Daniel Campos, Nick Craswell, Li Deng, Jianfeng Gao, Xiaodong Liu, Rangan Majumder, Andrew McNamara, Bhaskar Mitra, Tri Nguyen, Mir Rosenberg, Xia Song, Alina Stoica, Saurabh Tiwary, Tong Wang},
booktitle={InCoCo@NIPS},
year={2016}
}
提供机构:
irds
原始信息汇总
数据集概述
数据集名称
msmarco-passage
数据集来源
由ir-datasets提供。
数据集内容
- 数据类型: 文档(corpus)
- 文档数量: 8,841,823
数据集用途
该数据集被用于多个相关数据集,包括但不限于:
msmarco-passage_devmsmarco-passage_dev_judgedmsmarco-passage_evalmsmarco-passage_train_triples-smallmsmarco-passage_train_triples-v2msmarco-passage_trec-dl-hard及其多个折叠版本
数据集加载示例
python from datasets import load_dataset
docs = load_dataset(irds/msmarco-passage, docs) for record in docs: record # {doc_id: ..., text: ...}
引用信息
@inproceedings{Bajaj2016Msmarco, title={MS MARCO: A Human Generated MAchine Reading COmprehension Dataset}, author={Payal Bajaj, Daniel Campos, Nick Craswell, Li Deng, Jianfeng Gao, Xiaodong Liu, Rangan Majumder, Andrew McNamara, Bhaskar Mitra, Tri Nguyen, Mir Rosenberg, Xia Song, Alina Stoica, Saurabh Tiwary, Tong Wang}, booktitle={InCoCo@NIPS}, year={2016} }
搜集汇总
数据集介绍

构建方式
在信息检索领域,大规模数据集对于模型训练与评估至关重要。msmarco-passage数据集的构建源于微软机器阅读理解竞赛,通过从真实网络搜索日志中提取用户查询,并组织人工标注员撰写相关答案段落,最终汇集了超过884万条文档,形成了一个覆盖广泛主题的文本语料库。该过程确保了数据来源的真实性与多样性,为后续研究提供了坚实基础。
特点
该数据集以其庞大的规模与高质量标注著称,文档数量达到884万余条,涵盖了丰富的自然语言表达与信息需求。其特点在于所有段落均基于实际搜索查询生成,具有高度的实用性与代表性,能够有效模拟真实世界的信息检索场景。数据集中每个文档均包含唯一标识符与文本内容,结构清晰,便于直接应用于检索模型的训练与测试。
使用方法
在信息检索研究中,该数据集常作为基准语料库用于文档检索任务。研究人员可通过Hugging Face的datasets库加载数据集,使用load_dataset函数访问文档集合,并遍历获取每个文档的ID与文本内容。该数据集还衍生出多个子集,如开发集、评估集及三元组训练集等,支持不同阶段的模型训练与性能评估,为检索算法的比较与优化提供了标准化平台。
背景与挑战
背景概述
信息检索领域长期致力于提升大规模文本数据的精准检索能力,MS MARCO(Machine Reading Comprehension)数据集应运而生,由微软研究院于2016年主导构建。该数据集聚焦于机器阅读理解与段落检索任务,核心研究问题在于如何通过真实用户查询与人工标注的相关段落,推动检索模型在复杂语义匹配上的性能突破。其包含约884万条文档段落,为深度学习检索模型提供了丰富的训练与评估资源,显著促进了神经信息检索技术的发展,成为该领域的重要基准之一。
当前挑战
MS MARCO数据集旨在解决信息检索中段落级精准匹配的挑战,其核心难题在于处理真实世界查询的多样性与模糊性,要求模型超越关键词匹配,实现深层次语义理解。在构建过程中,面临大规模人工标注的复杂性,需确保标注质量与一致性;同时,数据规模庞大带来存储与处理效率的挑战,且查询与段落间的噪声干扰增加了模型训练的难度。这些因素共同构成了数据集在推动检索技术进步时所必须克服的关键障碍。
常用场景
经典使用场景
在信息检索领域,msmarco-passage数据集作为大规模文档语料库,其经典使用场景聚焦于训练和评估密集检索与神经排序模型。该数据集包含超过880万篇文档,为研究者提供了丰富的文本资源,用以模拟真实世界中的文档检索任务。通过构建查询-文档对,模型能够学习从海量文本中精准定位相关信息,从而推动检索系统在语义理解与匹配精度上的突破。
实际应用
在实际应用中,msmarco-passage数据集支撑了搜索引擎、智能问答系统以及知识库构建等关键场景。基于该数据集训练的模型能够高效处理用户自然语言查询,从庞大文档集合中抽取精准答案,广泛应用于商业搜索引擎优化、企业知识管理以及个性化推荐系统,显著提升了信息服务的智能化水平与用户体验。
衍生相关工作
围绕msmarco-passage数据集,衍生出一系列经典研究工作,如基于BERT的密集检索模型DPR、ColBERT等,这些模型通过利用数据集的丰富语料,实现了检索性能的显著提升。同时,TREC Deep Learning Track等国际评测任务也以该数据集为核心,推动了检索技术在对抗性样本、跨领域迁移等前沿方向的探索与创新。
以上内容由遇见数据集搜集并总结生成



