five

nixiesearch/ms-marco-dummy

收藏
Hugging Face2024-01-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nixiesearch/ms-marco-dummy
下载链接
链接失效反馈
官方服务:
资源简介:
MS MARCO dummy+test数据集用于测试nixietune,包含从MS MARCO中随机抽取的1000个查询。数据格式包括查询、正面回答和负面回答。数据集分为训练集和测试集,分别包含1000个样本。

The MS MARCO dummy dataset is a subset of 1000 random queries from the MS MARCO dataset, used for testing purposes. It is primarily used for sentence similarity tasks and includes features such as query, positive, and negative. The dataset is divided into training and testing parts, each containing 1000 samples. The dataset is licensed under Apache 2.0.
提供机构:
nixiesearch
原始信息汇总

MS MARCO dummy dataset

概述

  • 语言: 英语
  • 许可证: Apache 2.0
  • 标签: 文本
  • 名称: MS MARCO dummy dataset
  • 大小: 100K<n<1M
  • 来源数据集: MSMARCO
  • 任务类别: 句子相似度

数据集信息

  • 配置名称: default
  • 特征:
    • 查询: 字符串
    • 正例: 字符串序列
    • 负例: 字符串序列
  • 分割:
    • 训练集:
      • 字节数: 11535280
      • 样本数: 1000
    • 测试集:
      • 字节数: 11668968
      • 样本数: 1000

训练与评估索引

  • 配置: default
  • 任务: 句子相似度
  • 分割:
    • 训练分割: train
    • 评估分割: test

配置

  • 配置名称: default
  • 数据文件:
    • 训练集: "data/train/*"
    • 测试集: "data/test/*"
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作