five

hltcoe/tdist-msmarco-scores

收藏
Hugging Face2024-06-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hltcoe/tdist-msmarco-scores
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含由MonoT5 reranker生成的MS MARCO训练查询-段落分数,这些分数由unicamp-dl/mt5-13b-mmarco-100k和castorini/monot5-3b-msmarco-10k两个模型生成。每个训练查询与ColBERTv2模型检索的前50个段落相关联。文件以gzip压缩格式存储,并遵循特定的命名规则。此外,还提供了MS MARCO训练查询的波斯语翻译,这些翻译未包含在neuMARCO或mMARCO中。

This dataset contains MS MARCO training query-passage scores generated by the MonoT5 reranker, specifically from the models unicamp-dl/mt5-13b-mmarco-100k and castorini/monot5-3b-msmarco-10k. Each training query is associated with the top-50 passages retrieved by the ColBERTv2 model. The files are stored in gzip compressed format and follow a specific naming scheme. Additionally, Persian translations of the MS MARCO training queries are provided, which were not included in either neuMARCO or mMARCO.
提供机构:
hltcoe
原始信息汇总

MS MARCO Distillation Scores for Translate-Distill

数据集描述

该数据集包含由MonoT5重排序器生成的MS MARCO训练查询-段落分数,具体使用的是以下两个模型:

每个训练查询关联了由ColBERTv2模型检索的前50个段落。

文件格式

文件采用gzip压缩,命名格式为{teacher}-monot5-{msmarco, mmarco}-{qlang}{plang}.jsonl.gz,其中qlang表示查询语言,plang表示段落语言。对于非英语语言,使用mmarco和neuMarco提供的翻译文本。

额外提供

提供了MS MARCO训练查询的波斯语翻译,文件位于msmarco.train.query.fas.tsv.gz

引用信息

使用该数据集时,请引用以下论文:

bibtext @inproceedings{translate-distill, author = {Eugene Yang and Dawn Lawrie and James Mayfield and Douglas W. Oard and Scott Miller}, title = {Translate-Distill: Learning Cross-Language Dense Retrieval by Translation and Distillation}, booktitle = {Proceedings of the 46th European Conference on Information Retrieval (ECIR)}, year = {2024}, url = {https://arxiv.org/abs/2401.04810} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作