sentence-transformers/parallel-sentences-ccmatrix
收藏Hugging Face2024-06-18 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/parallel-sentences-ccmatrix
下载链接
链接失效反馈官方服务:
资源简介:
CCMatrix数据集是一个用于特征提取和句子相似度任务的多语言数据集。它包含英语句子及其在多种非英语语言中的翻译。每个配置都指定了涉及的语言,数据集被划分为训练集,每个集包含一定数量的示例和字节。数据集的大小因不同的语言对而异,表明这是一个多样化和广泛的多语言句子对集合。
CCMatrix数据集是一个用于特征提取和句子相似度任务的多语言数据集。它包含英语句子及其在多种非英语语言中的翻译。每个配置都指定了涉及的语言,数据集被划分为训练集,每个集包含一定数量的示例和字节。数据集的大小因不同的语言对而异,表明这是一个多样化和广泛的多语言句子对集合。
提供机构:
sentence-transformers
原始信息汇总
数据集概述
基本信息
- 数据集名称: CCMatrix
- 大小类别: 1B<n<10B
- 任务类别:
- 特征提取
- 句子相似度
- 标签: sentence-transformers
配置信息
配置: en-af
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 1148266566
- 样本数: 8694461
- 下载大小: 832696872
- 数据集大小: 1148266566
配置: en-ar
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 14226823350
- 样本数: 49697322
- 下载大小: 8765479032
- 数据集大小: 14226823350
配置: en-ast
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 637434232
- 样本数: 2956618
- 下载大小: 453215367
- 数据集大小: 637434232
配置: en-az
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 177938263
- 样本数: 1251254
- 下载大小: 124360060
- 数据集大小: 177938263
配置: en-be
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 542841152
- 样本数: 1885446
- 下载大小: 142253337
- 数据集大小: 542841152
配置: en-bg
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 11961705756
- 样本数: 44635282
- 下载大小: 7160113672
- 数据集大小: 11961705756
配置: en-bn
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 2053120318
- 样本数: 10074620
- 下载大小: 1098221602
- 数据集大小: 2053120318
配置: en-br
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 86947450
- 样本数: 454175
- 下载大小: 34384705
- 数据集大小: 86947450
配置: en-ca
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 3837708529
- 样本数: 21284430
- 下载大小: 2751851357
- 数据集大小: 3837708529
配置: en-ceb
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 234354977
- 样本数: 962549
- 下载大小: 49981947
- 数据集大小: 234354977
配置: en-cs
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 10277621210
- 样本数: 56307029
- 下载大小: 7607844854
- 数据集大小: 10277621210
配置: en-da
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 9093768397
- 样本数: 52273664
- 下载大小: 6510153593
- 数据集大小: 9093768397
配置: en-de
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 51555584594
- 样本数: 247470736
- 下载大小: 36674461807
- 数据集大小: 51555584594
配置: en-el
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 14907671089
- 样本数: 49262631
- 下载大小: 8919934254
- 数据集大小: 14907671089
配置: en-eo
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 2967819260
- 样本数: 15418393
- 下载大小: 2168808728
- 数据集大小: 2967819260
配置: en-es
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 100839563812
- 样本数: 409061333
- 下载大小: 69967087456
- 数据集大小: 100839563812
配置: en-et
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 3615519238
- 样本数: 22007049
- 下载大小: 2628823101
- 数据集大小: 3615519238
配置: en-eu
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 821387539
- 样本数: 7778871
- 下载大小: 606760358
- 数据集大小: 821387539
配置: en-fa
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 5720870387
- 样本数: 24597533
- 下载大小: 3493927697
- 数据集大小: 5720870387
配置: en-fi
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 6003531112
- 样本数: 35982562
- 下载大小: 4339586568
- 数据集大小: 6003531112
配置: en-fr
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 76362272973
- 样本数: 328595738
- 下载大小: 52468991292
- 数据集大小: 76362272973
配置: en-fy
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 192234316
- 样本数: 1372321
- 下载大小: 93352000
- 数据集大小: 192234316
配置: en-ga
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 225464892
- 样本数: 1076420
- 下载大小: 45935095
- 数据集大小: 225464892
配置: en-gd
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 114460109
- 样本数: 310351
- 下载大小: 24846114
- 数据集大小: 114460109
配置: en-gl
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 1746914916
- 样本数: 13178507
- 下载大小: 1294690325
- 数据集大小: 1746914916
配置: en-ha
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 1381532117
- 样本数: 5861080
- 下载大小: 314288607
- 数据集大小: 1381532117
配置: en-he
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 4410235248
- 样本数: 25228938
- 下载大小: 2861838829
- 数据集大小: 4410235248
配置: en-hi
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 4083378822
- 样本数: 15127900
- 下载大小: 2132432520
- 数据集大小: 4083378822
配置: en-hr
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 3218511310
- 样本数: 18797643
- 下载大小: 2368836034
- 数据集大小: 3218511310
配置: en-hu
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 6820144152
- 样本数: 36435409
- 下载大小: 4937653466
- 数据集大小: 6820144152
配置: en-id
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 15124269935
- 样本数: 70545705
- 下载大小: 10343250018
- 数据集大小: 15124269935
配置: en-ig
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 9470472
- 样本数: 80385
- 下载大小: 4927497
- 数据集大小: 9470472
配置: en-ilo
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 97134614
- 样本数: 335469
- 下载大小: 25965608
- 数据集大小: 97134614
配置: en-is
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 1006043191
- 样本数: 8723145
- 下载大小: 726436377
- 数据集大小: 1006043191
配置: en-it
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 34781986566
- 样本数: 146240552
- 下载大小: 24249713724
- 数据集大小: 34781986566
配置: en-ja
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 6088805781
- 样本数: 40883733
- 下载大小: 4379531648
- 数据集大小: 6088805781
配置: en-jv
- 特征:
english: stringnon_english: string
- 分割:
train:- 字节数: 281788171
- 样本数: 8
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个用于训练多语言句子嵌入模型的平行句子数据集,包含英语与超过75种其他语言(如南非荷兰语、阿拉伯语、阿斯特里亚语等)的句子对,总行数约29亿行,文件大小约430 GB,格式为parquet。它来源于CCMatrix数据集,适用于特征提取和句子相似性任务,是Parallel Sentences集合的一部分。
以上内容由遇见数据集搜集并总结生成



