thesistranslation/distilled-ccmatrix-de-en
收藏Hugging Face2023-10-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/thesistranslation/distilled-ccmatrix-de-en
下载链接
链接失效反馈官方服务:
资源简介:
数据集名为distilled-ccmatrix-de-en,包含德语和英语两种语言的翻译对。数据集的特征包括id和translation,其中translation特征包含两种语言的翻译对。数据集包含一个训练集(train),大小为7314473226字节,包含30000000个样本。下载大小为5149999083字节,数据集总大小为7314473226字节。
提供机构:
thesistranslation
原始信息汇总
数据集概述
数据集信息
- 特征:
id: 数据类型为int32translation: 包含两种语言的翻译数据- 语言:
de(德语) 和en(英语)
- 语言:
数据分割
- 训练集:
- 名称:
train - 字节数: 7,314,473,226
- 样本数: 30,000,000
- 名称:
数据大小
- 下载大小: 5,149,999,083 字节
- 数据集大小: 7,314,473,226 字节
语言
- 德语 (
de) - 英语 (
en)



