castorini/msmarco_v2_passage_doc2query-t5_expansions
收藏Hugging Face2021-11-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/castorini/msmarco_v2_passage_doc2query-t5_expansions
下载链接
链接失效反馈官方服务:
资源简介:
该数据集提供了为MS MARCO v2 passage corpus生成的查询,使用了docTTTTTquery模型(有时写作docT5query或doc2query-T5),这是doc2query系列文档扩展模型的最新版本。基本思想是训练一个模型,当给定输入文档时,生成文档可能回答的问题(或更广泛地说,文档可能相关的查询)。这些预测的问题(或查询)随后被附加到原始文档中,然后像以前一样进行索引。docTTTTTquery模型得名于使用T5作为扩展模型。
This dataset provides queries generated for the MS MARCO v2 passage corpus, using the docTTTTTquery model (sometimes referred to as docT5query or doc2query-T5), which is the latest iteration of the doc2query family of document expansion models. The core idea is to train a model that, given an input document, generates questions that the document could answer (or, more broadly, queries that the document might be relevant to). These predicted questions (or queries) are then appended to the original document, which is then indexed as before. The docTTTTTquery model takes its name from its use of T5 as the expansion model.
提供机构:
castorini
原始信息汇总
数据集概述
数据集名称
msmarco_v2_passage_doc2query-t5_expansions
数据集内容
- 该数据集包含针对MS MARCO v2段落语料库生成的查询,使用的是docTTTTTquery模型,这是doc2query系列文档扩展模型的最新版本。该模型能够根据输入文档生成可能回答的问题(或更广泛地说,文档可能相关的查询),并将这些预测问题附加到原始文档上,然后进行索引。
数据集结构
- 数据集包含三个折叠(训练、开发和测试),共享同一个语料库。查询是从这个语料库生成的。
- 示例数据条目包含文档ID和预测的查询列表。
数据集加载示例
- 使用以下代码加载数据集: python dataset = load_dataset(castorini/msmarco_v2_passage_doc2query-t5_expansions, data_files=d2q/d2q.jsonl???.gz)
引用信息
- 引用该数据集时,应参考以下文献:
- Nogueira, Rodrigo and Lin, Jimmy. "From doc2query to docTTTTTquery". 2019.
- Pradeep, Ronak and Nogueira, Rodrigo and Lin, Jimmy. "The Expando-Mono-Duo Design Pattern for Text Ranking with Pretrained Sequence-to-Sequence Models". arXiv:2101.05667, 2021.



