castorini/msmarco_v1_passage_doc2query-t5_expansions
收藏Hugging Face2022-06-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/castorini/msmarco_v1_passage_doc2query-t5_expansions
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为MS MARCO V1 passage corpus生成的查询,使用了docTTTTTquery模型,这是一种文档扩展模型,能够根据输入文档生成可能回答的问题或相关查询。这些预测的问题或查询随后被附加到原始文档中,并像以前一样进行索引。所有三个部分(训练、开发和测试)共享相同的语料库。
提供机构:
castorini
原始信息汇总
数据集概述
数据集名称
- 名称: MS MARCO V1 passage corpus with docTTTTTquery
数据集内容
- 描述: 该数据集使用docTTTTTquery模型(doc2query系列的一部分,基于T5模型)生成查询,用于扩展MS MARCO V1段落语料库。模型训练目的是根据输入文档生成可能回答的问题(或查询),并将这些预测问题附加到原始文档中进行索引。
数据集结构
- 结构: 数据集包含三个折叠(训练、开发和测试),共享同一语料库。查询由该语料库生成。
- 示例数据条目: json { "id": "0", "predicted_queries": [...一系列预测查询...] }
数据集加载示例
- 加载代码: python dataset = load_dataset(castorini/msmarco_v1_passage_doc2query-t5_expansions, data_files=d2q.jsonl.gz)
许可证
- 许可证: Apache License 2.0
引用信息
- 引用文献:
- Nogueira, Rodrigo and Lin, Jimmy. "From doc2query to docTTTTTquery", 2019.
- Pradeep, Ronak and Nogueira, Rodrigo and Lin, Jimmy. "The Expando-Mono-Duo Design Pattern for Text Ranking with Pretrained Sequence-to-Sequence Models", arXiv:2101.05667, 2021.



