nixiesearch/ms_marco
收藏Hugging Face2024-03-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nixiesearch/ms_marco
下载链接
链接失效反馈官方服务:
资源简介:
MS MARCO数据集是一个与[nixietune](https://github.com/nixiesearch/nixietune)兼容格式的数据集。该数据集来源于[BeIR/msmarco](https://huggingface.co/datasets/BeIR/msmarco),并进行了转换。数据集包含以下分割:训练集(502939个查询,仅包含正例)和开发集(6980个查询,仅包含正例)。
MS MARCO数据集是一个与[nixietune](https://github.com/nixiesearch/nixietune)兼容格式的数据集。该数据集来源于[BeIR/msmarco](https://huggingface.co/datasets/BeIR/msmarco),并进行了转换。数据集包含以下分割:训练集(502939个查询,仅包含正例)和开发集(6980个查询,仅包含正例)。
提供机构:
nixiesearch
原始信息汇总
MS MARCO 数据集
基本信息
- 语言: 英语
- 许可证: Apache 2.0
- 标签: 文本
- 名称: MS MARCO
- 大小类别: 100K<n<1M
- 源数据集: MSMARCO
- 任务类别: 句子相似度
数据集配置
- 配置名称: default
- 特征:
- query: 字符串
- doc: 字符串
- neg: 字符串序列
数据集分割
- 训练集:
- 字节数: 89609915
- 样本数: 502939
- 测试集:
- 字节数: 969945
- 样本数: 43
- 开发集:
- 字节数: 1206403
- 样本数: 6980
训练与评估索引
- 配置: default
- 任务: 句子相似度
- 分割:
- 训练分割: train
- 评估分割: test
配置文件
- 配置名称: default
- 数据文件:
- 训练集: "data/train/*"
- 开发集: "data/dev/*"



