thesistranslation/distilled-ccmatrix-en-fr
收藏Hugging Face2023-10-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/thesistranslation/distilled-ccmatrix-en-fr
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为distilled-ccmatrix-en-fr,包含英语和法语之间的翻译数据。数据集特征包括id和translation,其中translation字段支持英语和法语两种语言。数据集包含一个训练集,共有30,000,000个例子,总大小为7,456,743,546字节。下载大小为5,098,116,495字节。
提供机构:
thesistranslation
原始信息汇总
数据集概述
特征信息
- id: 数据类型为
int32。 - translation: 包含两种语言的翻译数据,具体语言为
en(英语)和fr(法语)。
数据分割
- train: 训练数据集,包含 30,000,000 条样本,总字节数为 7,456,743,546 字节。
数据大小
- 下载大小: 5,098,116,495 字节。
- 数据集大小: 7,456,743,546 字节。
语言
- 数据集包含英语(
en)和法语(fr)两种语言。



