castorini/msmarco_v2_doc_segmented_doc2query-t5_expansions

Name: castorini/msmarco_v2_doc_segmented_doc2query-t5_expansions
Creator: castorini
Published: 2021-11-02 08:13:56
License: 暂无描述

Hugging Face2021-11-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/castorini/msmarco_v2_doc_segmented_doc2query-t5_expansions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集提供了使用docTTTTTquery模型为MS MARCO v2文档分段语料库生成的查询。docTTTTTquery模型是doc2query系列文档扩展模型的最新版本，其基本思想是训练一个模型，当给定一个输入文档时，生成该文档可能回答的问题（或更广泛地说，文档可能相关的查询）。这些预测的问题（或查询）随后被附加到原始文档中，然后像以前一样进行索引。数据集包含训练、开发和测试三个部分，所有部分共享相同的语料库。数据条目包括文档ID、标题和文本内容。

提供机构：

castorini

原始信息汇总

数据集概述

数据集名称

msmarco_v2_doc_segmented_doc2query-t5_expansions

数据集描述

该数据集包含为MS MARCO v2文档分割语料库生成的查询，使用的是docTTTTTquery模型，这是doc2query系列文档扩展模型的最新版本。该模型的基本思想是训练一个模型，使其能够根据输入文档生成可能回答的问题（或更广泛地说，与文档相关的查询）。这些预测的问题（或查询）随后被附加到原始文档上，然后像以前一样进行索引。

数据集结构

数据集包含三个折叠（训练、开发和测试），共享相同的语料库。
示例数据条目格式如下：

{ docid: 25#0, title: Autism, text: Autism is a developmental disorder characterized by difficulties with social interaction and communication, ... }

加载数据集

加载数据集的示例代码： python dataset = load_dataset(castorini/msmarco_v2_doc_segmented_doc2query-t5_expansions, data_files=d2q/d2q.jsonl???.gz)

引用信息

引用该数据集时，应参考以下文献：
- @article{docTTTTTquery, title={From doc2query to {docTTTTTquery}}, author={Nogueira, Rodrigo and Lin, Jimmy}, year={2019}}
- @article{emdt5, author="Ronak Pradeep and Rodrigo Nogueira and Jimmy Lin", title="The Expando-Mono-Duo Design Pattern for Text Ranking with Pretrained Sequence-to-Sequence Models", journal="arXiv:2101.05667", year=2021,}

5,000+

优质数据集

54 个

任务类型

进入经典数据集