five

sentence-transformers/mr-tydi

收藏
Hugging Face2024-06-20 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/mr-tydi
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Mr. TyDi,主要用于特征提取和句子相似性任务。它包含多种语言的配置(如阿拉伯语、孟加拉语、英语、芬兰语、印尼语),并且每种语言有不同的配置,包括不同的负例数量(如三元组、三元组-100、三元组-全部)。每个配置详细描述了特征(锚点、正例、负例)、训练集的大小(字节数、样本数)、下载大小和数据集大小。

The dataset, named Mr. TyDi, is primarily used for feature extraction and sentence similarity tasks. It includes configurations for multiple languages (e.g., Arabic, Bengali, English, Finnish, Indonesian) with variations in the number of negative examples (e.g., triplet, triplet-100, triplet-all). Each configuration details the features (anchor, positive, negative), the size of the training split (bytes, number of examples), download size, and dataset size.
提供机构:
sentence-transformers
原始信息汇总

数据集概述

数据集名称

Mr. TyDi

数据集大小

  • 1M < n < 10M

任务类别

  • 特征提取
  • 句子相似度

标签

  • sentence-transformers

配置信息

配置名称:ar-triplet

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 24615084
      • 样本数: 12377
  • 下载大小: 12653243
  • 数据集大小: 24615084

配置名称:ar-triplet-100

  • 特征:
    • anchor: string
    • positive: string
    • negative_1 至 negative_100: string
  • 分割:
    • train:
      • 字节数: 1214594234
      • 样本数: 12377
  • 下载大小: 641644211
  • 数据集大小: 1214594234

配置名称:ar-triplet-all

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 2453727140
      • 样本数: 1237700
  • 下载大小: 613873757
  • 数据集大小: 2453727140

配置名称:bn-triplet

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 6017155
      • 样本数: 1713
  • 下载大小: 2175375
  • 数据集大小: 6017155

配置名称:bn-triplet-100

  • 特征:
    • anchor: string
    • positive: string
    • negative_1 至 negative_100: string
  • 分割:
    • train:
      • 字节数: 282968923
      • 样本数: 1719
  • 下载大小: 111281886
  • 数据集大小: 282968923

配置名称:bn-triplet-all

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 602712985
      • 样本数: 171900
  • 下载大小: 107783867
  • 数据集大小: 602712985

配置名称:en-triplet

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 4768398
      • 样本数: 3547
  • 下载大小: 3112690
  • 数据集大小: 4768398

配置名称:en-triplet-100

  • 特征:
    • anchor: string
    • positive: string
    • negative_1 至 negative_100: string
  • 分割:
    • train:
      • 字节数: 234808493
      • 样本数: 3547
  • 下载大小: 154772611
  • 数据集大小: 234808493

配置名称:en-triplet-all

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 478023773
      • 样本数: 354700
  • 下载大小: 138708662
  • 数据集大小: 478023773

配置名称:fi-triplet

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 7319798
      • 样本数: 6561
  • 下载大小: 4861307
  • 数据集大小: 7319798

配置名称:fi-triplet-100

  • 特征:
    • anchor: string
    • positive: string
    • negative_1 至 negative_100: string
  • 分割:
    • train:
      • 字节数: 365508753
      • 样本数: 6561
  • 下载大小: 247258083
  • 数据集大小: 365508753

配置名称:fi-triplet-all

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 735154260
      • 样本数: 656100
  • 下载大小: 227681832
  • 数据集大小: 735154260

配置名称:id-triplet

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 6313211
      • 样本数: 4902
  • 下载大小: 3774956
  • 数据集大小: 6313211

配置名称:id-triplet-100

  • 特征:
    • anchor: string
    • positive: string
    • negative_1 至 negative_100: string
  • 分割:
    • train:
      • 字节数: 365508753
      • 样本数: 6561
  • 下载大小: 247258083
  • 数据集大小: 365508753
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作