thesistranslation/distilled-ccmatrix-en-es
收藏Hugging Face2023-10-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/thesistranslation/distilled-ccmatrix-en-es
下载链接
链接失效反馈官方服务:
资源简介:
数据集名为distilled-ccmatrix-en-es,包含英语和西班牙语之间的翻译数据。数据集的特征包括id和translation,其中translation字段包含两种语言的翻译对。数据集分为一个训练集,包含30,000,000个样本,文件大小为7,084,246,805字节。下载大小为4,913,968,666字节。数据集的语言为英语和西班牙语。
提供机构:
thesistranslation
原始信息汇总
数据集概述
数据集信息
- 特征:
id: 数据类型为int32translation: 包含两种语言的翻译,分别是en(英语) 和es(西班牙语)
数据分割
- 训练集:
- 名称:
train - 字节数: 7084246805
- 样本数: 30000000
- 名称:
数据集大小
- 下载大小: 4913968666
- 数据集大小: 7084246805
语言
- 西班牙语 (
es) - 英语 (
en)



