irds/msmarco-document-v2_trec-dl-2019

Name: irds/msmarco-document-v2_trec-dl-2019
Creator: irds
Published: 2023-01-05 03:41:24
License: 暂无描述

Hugging Face2023-01-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/irds/msmarco-document-v2_trec-dl-2019

下载链接

链接失效反馈

官方服务：

资源简介：

--- pretty_name: '`msmarco-document-v2/trec-dl-2019`' viewer: false source_datasets: ['irds/msmarco-document-v2'] task_categories: - text-retrieval --- # Dataset Card for `msmarco-document-v2/trec-dl-2019` The `msmarco-document-v2/trec-dl-2019` dataset, provided by the [ir-datasets](https://ir-datasets.com/) package. For more information about the dataset, see the [documentation](https://ir-datasets.com/msmarco-document-v2#msmarco-document-v2/trec-dl-2019). # Data This dataset provides: - `queries` (i.e., topics); count=200 - `qrels`: (relevance assessments); count=13,940 - For `docs`, use [`irds/msmarco-document-v2`](https://huggingface.co/datasets/irds/msmarco-document-v2) This dataset is used by: [`msmarco-document-v2_trec-dl-2019_judged`](https://huggingface.co/datasets/irds/msmarco-document-v2_trec-dl-2019_judged) ## Usage ```python from datasets import load_dataset queries = load_dataset('irds/msmarco-document-v2_trec-dl-2019', 'queries') for record in queries: record # {'query_id': ..., 'text': ...} qrels = load_dataset('irds/msmarco-document-v2_trec-dl-2019', 'qrels') for record in qrels: record # {'query_id': ..., 'doc_id': ..., 'relevance': ..., 'iteration': ...} ``` Note that calling `load_dataset` will download the dataset (or provide access instructions when it's not public) and make a copy of the data in 🤗 Dataset format. ## Citation Information ``` @inproceedings{Craswell2019TrecDl, title={Overview of the TREC 2019 deep learning track}, author={Nick Craswell and Bhaskar Mitra and Emine Yilmaz and Daniel Campos and Ellen Voorhees}, booktitle={TREC 2019}, year={2019} } @inproceedings{Bajaj2016Msmarco, title={MS MARCO: A Human Generated MAchine Reading COmprehension Dataset}, author={Payal Bajaj, Daniel Campos, Nick Craswell, Li Deng, Jianfeng Gao, Xiaodong Liu, Rangan Majumder, Andrew McNamara, Bhaskar Mitra, Tri Nguyen, Mir Rosenberg, Xia Song, Alina Stoica, Saurabh Tiwary, Tong Wang}, booktitle={InCoCo@NIPS}, year={2016} } ```

yaml pretty_name: '`msmarco-document-v2/trec-dl-2019`' viewer: false source_datasets: ['irds/msmarco-document-v2'] task_categories: - 文本检索 # 数据集卡片：`msmarco-document-v2/trec-dl-2019` 本`msmarco-document-v2/trec-dl-2019`数据集由[ir-datasets](https://ir-datasets.com/)工具包发布。如需了解该数据集的更多详情，请参阅[官方文档](https://ir-datasets.com/msmarco-document-v2#msmarco-document-v2/trec-dl-2019)。 # 数据本数据集包含以下内容： - `queries`（即查询主题）：共计200条 - `qrels`（相关性标注数据）：共计13,940条 - 如需获取文档`docs`，请使用 [`irds/msmarco-document-v2`](https://huggingface.co/datasets/irds/msmarco-document-v2) 加载。本数据集已被 [`msmarco-document-v2_trec-dl-2019_judged`](https://huggingface.co/datasets/irds/msmarco-document-v2_trec-dl-2019_judged) 所使用。 ## 使用方法 python from datasets import load_dataset # 加载查询数据集 queries = load_dataset('irds/msmarco-document-v2_trec-dl-2019', 'queries') for record in queries: record # 格式为 {'query_id': ..., 'text': ...} # 加载相关性标注数据集 qrels = load_dataset('irds/msmarco-document-v2_trec-dl-2019', 'qrels') for record in qrels: record # 格式为 {'query_id': ..., 'doc_id': ..., 'relevance': ..., 'iteration': ...} 注：调用`load_dataset`将自动下载该数据集（若数据集未对外开放，则会提供访问指引），并将其转换为🤗 Dataset格式。 ## 引用信息 bibtex @inproceedings{Craswell2019TrecDl, title={Overview of the TREC 2019 deep learning track}, author={Nick Craswell and Bhaskar Mitra and Emine Yilmaz and Daniel Campos and Ellen Voorhees}, booktitle={TREC 2019}, year={2019} } @inproceedings{Bajaj2016Msmarco, title={MS MARCO: A Human Generated MAchine Reading COmprehension Dataset}, author={Payal Bajaj, Daniel Campos, Nick Craswell, Li Deng, Jianfeng Gao, Xiaodong Liu, Rangan Majumder, Andrew McNamara, Bhaskar Mitra, Tri Nguyen, Mir Rosenberg, Xia Song, Alina Stoica, Saurabh Tiwary, Tong Wang}, booktitle={InCoCo@NIPS}, year={2016} }

提供机构：

irds

原始信息汇总

数据集概述

数据集名称

msmarco-document-v2/trec-dl-2019

数据来源

源数据集：irds/msmarco-document-v2

任务类别

文本检索

数据内容

queries（查询主题）：数量=200
qrels（相关性评估）：数量=13,940
docs：使用irds/msmarco-document-v2数据集

使用方法

python from datasets import load_dataset

queries = load_dataset(irds/msmarco-document-v2_trec-dl-2019, queries) for record in queries: record # {query_id: ..., text: ...}

qrels = load_dataset(irds/msmarco-document-v2_trec-dl-2019, qrels) for record in qrels: record # {query_id: ..., doc_id: ..., relevance: ..., iteration: ...}

引用信息

@inproceedings{Craswell2019TrecDl, title={Overview of the TREC 2019 deep learning track}, author={Nick Craswell and Bhaskar Mitra and Emine Yilmaz and Daniel Campos and Ellen Voorhees}, booktitle={TREC 2019}, year={2019} } @inproceedings{Bajaj2016Msmarco, title={MS MARCO: A Human Generated MAchine Reading COmprehension Dataset}, author={Payal Bajaj, Daniel Campos, Nick Craswell, Li Deng, Jianfeng Gao, Xiaodong Liu, Rangan Majumder, Andrew McNamara, Bhaskar Mitra, Tri Nguyen, Mir Rosenberg, Xia Song, Alina Stoica, Saurabh Tiwary, Tong Wang}, booktitle={InCoCo@NIPS}, year={2016} }

搜集汇总

数据集介绍

构建方式

msmarco-document-v2/trec-dl-2019数据集是在msmarco-document-v2的基础上，针对TREC 2019深度学习赛道构建的。该数据集包含了200个查询（即主题）和13,940个相关度评估（qrels），旨在为文本检索任务提供评估基准。

特点

该数据集的特点在于其来源的真实性和多样性，它采集自互联网的真实搜索数据，查询和文档的相关度评估由人类标注者提供，从而保证了数据集的质量和评估的准确性。此外，数据集的构建遵循了TREC 2019深度学习赛道的规范，为参赛者提供了统一的评价标准。

使用方法

使用该数据集时，用户可以通过调用load_dataset函数来加载查询和qrels数据。加载后，用户可以遍历查询和qrels中的记录，每条记录包含了query_id、text、doc_id、relevance和iteration等信息，这些信息是进行文本检索模型训练和评估的基础。

背景与挑战

背景概述

在信息检索领域，随着深度学习技术的发展，构建能够理解自然语言查询并与大规模文档集合进行有效交互的模型成为了一项关键任务。`msmarco-document-v2/trec-dl-2019`数据集，由Nick Craswell等研究人员于2019年提供，是针对这一任务的重要资源。该数据集源自MS MARCO（MAchine Reading COmprehension）项目，旨在推动机器阅读理解领域的研究，特别是在真实世界场景中的应用。它包含了200个查询和13,940个相关性评估，为研究者在文本检索任务上提供了丰富的实验材料。该数据集因其接近实际应用场景的数据特性和大规模的文档集合，对信息检索和自然语言处理领域产生了显著影响。

当前挑战

该数据集相关的挑战主要体现在两个方面：一是领域问题解决的挑战，即在理解和响应用户查询时，如何提高模型的准确性和效率；二是构建过程中的挑战，如如何处理大规模数据集的存储、检索和实时评估问题。此外，数据集在构建过程中还需确保查询和文档的相关性评估质量，这要求研究人员在数据标注和质量控制方面投入大量工作。这些挑战推动了相关技术的进步，也促进了更加高效和智能的信息检索模型的开发。

常用场景

经典使用场景

在文本检索领域，`msmarco-document-v2/trec-dl-2019` 数据集的典型应用场景是评估和改进深度学习模型在处理大规模文档集合时的检索性能。该数据集包含200个查询实例和13,940个相关性评估，为研究者提供了一个标准化平台，以衡量其模型的效率和准确性。

衍生相关工作

基于`msmarco-document-v2/trec-dl-2019` 数据集，学术界衍生出了一系列相关研究工作，如深度学习模型的设计与优化、查询意图理解、文档排序算法等。这些研究进一步拓宽了文本检索技术的应用范围，并促进了相关领域的学术交流与合作。

数据集最近研究