five

thesistranslation/distilled-ccmatrix-en-fr

收藏
Hugging Face2023-10-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/thesistranslation/distilled-ccmatrix-en-fr
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为distilled-ccmatrix-en-fr,包含英语和法语之间的翻译数据。数据集特征包括id和translation,其中translation字段支持英语和法语两种语言。数据集包含一个训练集,共有30,000,000个例子,总大小为7,456,743,546字节。下载大小为5,098,116,495字节。
提供机构:
thesistranslation
原始信息汇总

数据集概述

特征信息

  • id: 数据类型为 int32
  • translation: 包含两种语言的翻译数据,具体语言为 en(英语)和 fr(法语)。

数据分割

  • train: 训练数据集,包含 30,000,000 条样本,总字节数为 7,456,743,546 字节。

数据大小

  • 下载大小: 5,098,116,495 字节。
  • 数据集大小: 7,456,743,546 字节。

语言

  • 数据集包含英语(en)和法语(fr)两种语言。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作