mteb/msmarco-v2
收藏Hugging Face2025-05-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mteb/msmarco-v2
下载链接
链接失效反馈官方服务:
资源简介:
MS MARCOv2 是一个专注于深度学习的搜索领域的数据集,包括百科全书、学术、博客、新闻、医学、政府、评论、非小说、社交和网页等多个领域。
MS MARCO is a collection of datasets focused on deep learning in search, including encyclopaedic, academic, blog, news, medical, government, reviews, non-fiction, social, and web domains.
提供机构:
mteb
原始信息汇总
数据集概述
语言和多语言性
- 语言: 英语
- 多语言性: 单语种
任务类别和任务ID
- 任务类别: 文本检索
- 任务ID: 文档检索
配置名称和标签
- 配置名称: corpus
- 标签: 文本检索
数据集信息
配置名称: default
- 特征:
- query-id: 字符串
- corpus-id: 字符串
- score: 浮点数 (float64)
- 分割:
- train:
- 字节数: 9631462
- 样本数: 284212
- dev:
- 字节数: 136961
- 样本数: 4009
- dev2:
- 字节数: 150735
- 样本数: 4411
- train:
配置名称: corpus
- 特征:
- _id: 字符串
- title: 字符串
- text: 字符串
- 分割:
- corpus:
- 字节数: 50691069190
- 样本数: 138364198
- corpus:
配置名称: queries
- 特征:
- _id: 字符串
- text: 字符串
- 分割:
- queries:
- 字节数: 13379527
- 样本数: 285328
- queries:
配置和数据文件
配置名称: default
- 数据文件:
- train: qrels/train.jsonl
- dev: qrels/dev.jsonl
- dev2: qrels/dev2.jsonl
配置名称: corpus
- 数据文件:
- corpus: corpus.jsonl.gz
配置名称: queries
- 数据文件:
- queries: queries.jsonl



