nixiesearch/ms-marco-dummy
收藏Hugging Face2024-01-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nixiesearch/ms-marco-dummy
下载链接
链接失效反馈官方服务:
资源简介:
MS MARCO dummy+test数据集用于测试nixietune,包含从MS MARCO中随机抽取的1000个查询。数据格式包括查询、正面回答和负面回答。数据集分为训练集和测试集,分别包含1000个样本。
The MS MARCO dummy dataset is a subset of 1000 random queries from the MS MARCO dataset, used for testing purposes. It is primarily used for sentence similarity tasks and includes features such as query, positive, and negative. The dataset is divided into training and testing parts, each containing 1000 samples. The dataset is licensed under Apache 2.0.
提供机构:
nixiesearch
原始信息汇总
MS MARCO dummy dataset
概述
- 语言: 英语
- 许可证: Apache 2.0
- 标签: 文本
- 名称: MS MARCO dummy dataset
- 大小: 100K<n<1M
- 来源数据集: MSMARCO
- 任务类别: 句子相似度
数据集信息
- 配置名称: default
- 特征:
- 查询: 字符串
- 正例: 字符串序列
- 负例: 字符串序列
- 分割:
- 训练集:
- 字节数: 11535280
- 样本数: 1000
- 测试集:
- 字节数: 11668968
- 样本数: 1000
- 训练集:
训练与评估索引
- 配置: default
- 任务: 句子相似度
- 分割:
- 训练分割: train
- 评估分割: test
配置
- 配置名称: default
- 数据文件:
- 训练集: "data/train/*"
- 测试集: "data/test/*"



