five

sentence-transformers/msmarco-distilbert-margin-mse-mnrl-mean-v1

收藏
Hugging Face2024-05-15 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/msmarco-distilbert-margin-mse-mnrl-mean-v1
下载链接
链接失效反馈
官方服务:
资源简介:
MS MARCO with hard negatives from distilbert-margin-mse-mnrl-mean-v1 是一个基于 Bing 搜索引擎真实用户搜索查询的大规模信息检索语料库。该数据集包含多种三元组(查询、正例、负例)子集,用于训练 Sentence Transformer 模型。子集包括唯一三元组、所有三元组、困难三元组和 50 个三元组,每种子集都有字符串和 ID 两种格式。该数据集适用于特征提取和句子相似性等任务。

MS MARCO with hard negatives from distilbert-margin-mse-mnrl-mean-v1 是一个基于 Bing 搜索引擎真实用户搜索查询的大规模信息检索语料库。该数据集包含多种三元组(查询、正例、负例)子集,用于训练 Sentence Transformer 模型。子集包括唯一三元组、所有三元组、困难三元组和 50 个三元组,每种子集都有字符串和 ID 两种格式。该数据集适用于特征提取和句子相似性等任务。
提供机构:
sentence-transformers
原始信息汇总

数据集概述

数据集基本信息

  • 语言: 英语
  • 多语言性: 单语种
  • 数据集大小: 10M<n<100M
  • 任务类别: 特征提取、句子相似度
  • 标签: sentence-transformers
  • 数据集名称: MS MARCO with hard negatives from distilbert-margin-mse-mnrl-mean-v1

数据集配置详情

配置 triplet

  • 特征:
    • query: 字符串
    • positive: 字符串
    • negative: 字符串
  • 分割:
    • train:
      • 字节数: 362311399
      • 样本数: 502939
  • 下载大小: 237696494
  • 数据集大小: 362311399

配置 triplet-50

  • 特征:
    • query: 字符串
    • positive: 字符串
    • negative_1negative_50: 字符串
  • 分割:
    • train:
      • 字节数: 9055753225
      • 样本数: 502939
  • 下载大小: 5925261472
  • 数据集大小: 9055753225

配置 triplet-50-ids

  • 特征:
    • query: 整数
    • positive: 整数
    • negative_1negative_50: 整数
  • 分割:
    • train:
      • 字节数: 209222624
      • 样本数: 502939
  • 下载大小: 178194153
  • 数据集大小: 209222624

配置 triplet-all

  • 特征:
    • query: 字符串
    • positive: 字符串
    • negative: 字符串
  • 分割:
    • train:
      • 字节数: 19859742653
      • 样本数: 26637550
  • 下载大小: 4302280797
  • 数据集大小: 19859742653

配置 triplet-all-ids

  • 特征:
    • query: 整数
    • positive: 整数
    • negative: 整数
  • 分割:
    • train:
      • 字节数: 639301200
      • 样本数: 26637550
  • 下载大小: 190499061
  • 数据集大小: 639301200

配置 triplet-hard

  • 特征:
    • query: 字符串
    • positive: 字符串
    • negative: 字符串
  • 分割:
    • train:
      • 字节数: 8851042421
      • 样本数: 12149686
  • 下载大小: 2270891305
  • 数据集大小: 8851042421

配置 triplet-hard-ids

  • 特征:
    • query: 整数
    • positive: 整数
    • negative: 整数
  • 分割:
    • train:
      • 字节数: 291592464
      • 样本数: 12149686
  • 下载大小: 93357261
  • 数据集大小: 291592464

配置 triplet-ids

  • 特征:
    • query: 整数
    • positive: 整数
    • negative: 整数
  • 分割:
    • train:
      • 字节数: 12070536
      • 样本数: 502939
  • 下载大小: 10131713
  • 数据集大小: 12070536
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作