five

sentence-transformers/parallel-sentences-ccmatrix

收藏
Hugging Face2024-06-18 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/parallel-sentences-ccmatrix
下载链接
链接失效反馈
官方服务:
资源简介:
CCMatrix数据集是一个用于特征提取和句子相似度任务的多语言数据集。它包含英语句子及其在多种非英语语言中的翻译。每个配置都指定了涉及的语言,数据集被划分为训练集,每个集包含一定数量的示例和字节。数据集的大小因不同的语言对而异,表明这是一个多样化和广泛的多语言句子对集合。

CCMatrix数据集是一个用于特征提取和句子相似度任务的多语言数据集。它包含英语句子及其在多种非英语语言中的翻译。每个配置都指定了涉及的语言,数据集被划分为训练集,每个集包含一定数量的示例和字节。数据集的大小因不同的语言对而异,表明这是一个多样化和广泛的多语言句子对集合。
提供机构:
sentence-transformers
原始信息汇总

数据集概述

基本信息

  • 数据集名称: CCMatrix
  • 大小类别: 1B<n<10B
  • 任务类别:
    • 特征提取
    • 句子相似度
  • 标签: sentence-transformers

配置信息

配置: en-af

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 1148266566
      • 样本数: 8694461
  • 下载大小: 832696872
  • 数据集大小: 1148266566

配置: en-ar

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 14226823350
      • 样本数: 49697322
  • 下载大小: 8765479032
  • 数据集大小: 14226823350

配置: en-ast

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 637434232
      • 样本数: 2956618
  • 下载大小: 453215367
  • 数据集大小: 637434232

配置: en-az

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 177938263
      • 样本数: 1251254
  • 下载大小: 124360060
  • 数据集大小: 177938263

配置: en-be

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 542841152
      • 样本数: 1885446
  • 下载大小: 142253337
  • 数据集大小: 542841152

配置: en-bg

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 11961705756
      • 样本数: 44635282
  • 下载大小: 7160113672
  • 数据集大小: 11961705756

配置: en-bn

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 2053120318
      • 样本数: 10074620
  • 下载大小: 1098221602
  • 数据集大小: 2053120318

配置: en-br

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 86947450
      • 样本数: 454175
  • 下载大小: 34384705
  • 数据集大小: 86947450

配置: en-ca

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 3837708529
      • 样本数: 21284430
  • 下载大小: 2751851357
  • 数据集大小: 3837708529

配置: en-ceb

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 234354977
      • 样本数: 962549
  • 下载大小: 49981947
  • 数据集大小: 234354977

配置: en-cs

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 10277621210
      • 样本数: 56307029
  • 下载大小: 7607844854
  • 数据集大小: 10277621210

配置: en-da

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 9093768397
      • 样本数: 52273664
  • 下载大小: 6510153593
  • 数据集大小: 9093768397

配置: en-de

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 51555584594
      • 样本数: 247470736
  • 下载大小: 36674461807
  • 数据集大小: 51555584594

配置: en-el

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 14907671089
      • 样本数: 49262631
  • 下载大小: 8919934254
  • 数据集大小: 14907671089

配置: en-eo

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 2967819260
      • 样本数: 15418393
  • 下载大小: 2168808728
  • 数据集大小: 2967819260

配置: en-es

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 100839563812
      • 样本数: 409061333
  • 下载大小: 69967087456
  • 数据集大小: 100839563812

配置: en-et

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 3615519238
      • 样本数: 22007049
  • 下载大小: 2628823101
  • 数据集大小: 3615519238

配置: en-eu

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 821387539
      • 样本数: 7778871
  • 下载大小: 606760358
  • 数据集大小: 821387539

配置: en-fa

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 5720870387
      • 样本数: 24597533
  • 下载大小: 3493927697
  • 数据集大小: 5720870387

配置: en-fi

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 6003531112
      • 样本数: 35982562
  • 下载大小: 4339586568
  • 数据集大小: 6003531112

配置: en-fr

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 76362272973
      • 样本数: 328595738
  • 下载大小: 52468991292
  • 数据集大小: 76362272973

配置: en-fy

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 192234316
      • 样本数: 1372321
  • 下载大小: 93352000
  • 数据集大小: 192234316

配置: en-ga

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 225464892
      • 样本数: 1076420
  • 下载大小: 45935095
  • 数据集大小: 225464892

配置: en-gd

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 114460109
      • 样本数: 310351
  • 下载大小: 24846114
  • 数据集大小: 114460109

配置: en-gl

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 1746914916
      • 样本数: 13178507
  • 下载大小: 1294690325
  • 数据集大小: 1746914916

配置: en-ha

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 1381532117
      • 样本数: 5861080
  • 下载大小: 314288607
  • 数据集大小: 1381532117

配置: en-he

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 4410235248
      • 样本数: 25228938
  • 下载大小: 2861838829
  • 数据集大小: 4410235248

配置: en-hi

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 4083378822
      • 样本数: 15127900
  • 下载大小: 2132432520
  • 数据集大小: 4083378822

配置: en-hr

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 3218511310
      • 样本数: 18797643
  • 下载大小: 2368836034
  • 数据集大小: 3218511310

配置: en-hu

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 6820144152
      • 样本数: 36435409
  • 下载大小: 4937653466
  • 数据集大小: 6820144152

配置: en-id

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 15124269935
      • 样本数: 70545705
  • 下载大小: 10343250018
  • 数据集大小: 15124269935

配置: en-ig

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 9470472
      • 样本数: 80385
  • 下载大小: 4927497
  • 数据集大小: 9470472

配置: en-ilo

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 97134614
      • 样本数: 335469
  • 下载大小: 25965608
  • 数据集大小: 97134614

配置: en-is

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 1006043191
      • 样本数: 8723145
  • 下载大小: 726436377
  • 数据集大小: 1006043191

配置: en-it

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 34781986566
      • 样本数: 146240552
  • 下载大小: 24249713724
  • 数据集大小: 34781986566

配置: en-ja

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 6088805781
      • 样本数: 40883733
  • 下载大小: 4379531648
  • 数据集大小: 6088805781

配置: en-jv

  • 特征:
    • english: string
    • non_english: string
  • 分割:
    • train:
      • 字节数: 281788171
      • 样本数: 8
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个用于训练多语言句子嵌入模型的平行句子数据集,包含英语与超过75种其他语言(如南非荷兰语、阿拉伯语、阿斯特里亚语等)的句子对,总行数约29亿行,文件大小约430 GB,格式为parquet。它来源于CCMatrix数据集,适用于特征提取和句子相似性任务,是Parallel Sentences集合的一部分。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作