nixiesearch/ms_marco

Name: nixiesearch/ms_marco
Creator: nixiesearch
Published: 2024-03-18 17:23:10
License: 暂无描述

Hugging Face2024-03-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nixiesearch/ms_marco

下载链接

链接失效反馈

官方服务：

资源简介：

MS MARCO数据集是一个与[nixietune](https://github.com/nixiesearch/nixietune)兼容格式的数据集。该数据集来源于[BeIR/msmarco](https://huggingface.co/datasets/BeIR/msmarco)，并进行了转换。数据集包含以下分割：训练集（502939个查询，仅包含正例）和开发集（6980个查询，仅包含正例）。

提供机构：

nixiesearch

原始信息汇总

MS MARCO 数据集

基本信息

语言: 英语
许可证: Apache 2.0
标签: 文本
名称: MS MARCO
大小类别: 100K<n<1M
源数据集: MSMARCO
任务类别: 句子相似度

数据集配置

配置名称: default
特征:
- query: 字符串
- doc: 字符串
- neg: 字符串序列

数据集分割

训练集:
- 字节数: 89609915
- 样本数: 502939
测试集:
- 字节数: 969945
- 样本数: 43
开发集:
- 字节数: 1206403
- 样本数: 6980

训练与评估索引

配置: default
任务: 句子相似度
分割:
- 训练分割: train
- 评估分割: test

配置文件

配置名称: default
数据文件:
- 训练集: "data/train/*"
- 开发集: "data/dev/*"

5,000+

优质数据集

54 个

任务类型

进入经典数据集