nixiesearch/ms-marco-dummy

Name: nixiesearch/ms-marco-dummy
Creator: nixiesearch
Published: 2024-01-02 10:04:32
License: 暂无描述

Hugging Face2024-01-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nixiesearch/ms-marco-dummy

下载链接

链接失效反馈

官方服务：

资源简介：

MS MARCO dummy+test数据集用于测试nixietune，包含从MS MARCO中随机抽取的1000个查询。数据格式包括查询、正面回答和负面回答。数据集分为训练集和测试集，分别包含1000个样本。

The MS MARCO dummy dataset is a subset of 1000 random queries from the MS MARCO dataset, used for testing purposes. It is primarily used for sentence similarity tasks and includes features such as query, positive, and negative. The dataset is divided into training and testing parts, each containing 1000 samples. The dataset is licensed under Apache 2.0.

提供机构：

nixiesearch

原始信息汇总

MS MARCO dummy dataset

概述

语言: 英语
许可证: Apache 2.0
标签: 文本
名称: MS MARCO dummy dataset
大小: 100K<n<1M
来源数据集: MSMARCO
任务类别: 句子相似度

数据集信息

配置名称: default
特征:
- 查询: 字符串
- 正例: 字符串序列
- 负例: 字符串序列
分割:
- 训练集:
  - 字节数: 11535280
  - 样本数: 1000
- 测试集:
  - 字节数: 11668968
  - 样本数: 1000

训练与评估索引

配置: default
任务: 句子相似度
分割:
- 训练分割: train
- 评估分割: test

配置

配置名称: default
数据文件:
- 训练集: "data/train/*"
- 测试集: "data/test/*"

5,000+

优质数据集

54 个

任务类型

进入经典数据集