castorini/msmarco_v2_doc_doc2query-t5_expansions

Name: castorini/msmarco_v2_doc_doc2query-t5_expansions
Creator: castorini
Published: 2021-11-11 17:41:32
License: 暂无描述

Hugging Face2021-11-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/castorini/msmarco_v2_doc_doc2query-t5_expansions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集提供了使用docTTTTTquery模型为MS MARCO v2文档语料库生成的查询。docTTTTTquery模型是doc2query系列文档扩展模型的最新版本，其基本思想是训练一个模型，当给定一个输入文档时，生成该文档可能回答的问题或查询。这些预测的问题或查询随后被附加到原始文档中，然后像以前一样进行索引。数据集的结构包括训练集、开发集和测试集，所有部分共享相同的语料库。数据条目的格式包括文档ID、标题和文本内容。

提供机构：

castorini

原始信息汇总

数据集概述

数据集名称

msmarco_v2_doc_doc2query-t5_expansions

数据集内容

本数据集包含为MS MARCO v2文档语料库生成的查询，使用的是docTTTTTquery模型，该模型属于doc2query系列的最新文档扩展模型。该模型的基本功能是，给定一个输入文档，生成该文档可能回答的问题（或更广泛地说，该文档可能相关的查询）。这些预测的问题（或查询）随后被附加到原始文档上，然后像以前一样进行索引。

数据集结构

数据集包含三个折叠（训练集、开发集和测试集），它们共享相同的语料库。
每个数据条目包含以下字段：
- docid：文档ID
- title：文档标题
- text：文档内容

数据集加载示例

加载数据集的示例代码如下： python dataset = load_dataset(castorini/msmarco_v2_doc_doc2query-t5_expansions)

引用信息

数据集引用文献：
- @article{docTTTTTquery, title={From doc2query to {docTTTTTquery}}, author={Nogueira, Rodrigo and Lin, Jimmy}, year={2019}}
- @article{emdt5, author="Ronak Pradeep and Rodrigo Nogueira and Jimmy Lin", title="The Expando-Mono-Duo Design Pattern for Text Ranking with Pretrained Sequence-to-Sequence Models", journal="arXiv:2101.05667", year=2021,}

5,000+

优质数据集

54 个

任务类型

进入经典数据集