speedcell4/ted_multi
收藏Hugging Face2024-06-28 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/speedcell4/ted_multi
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含60种不同语言的翻译文本,每个语言对都有相应的翻译文本。数据集还包含一个名为talk_name的字符串特征,可能是指对话或讨论的主题名称。数据集分为训练集、验证集和测试集,分别包含258098、6049和7213个样本。
该数据集包含60种不同语言的翻译文本,每个语言对都有相应的翻译文本。数据集还包含一个名为talk_name的字符串特征,可能是指对话或讨论的主题名称。数据集分为训练集、验证集和测试集,分别包含258098、6049和7213个样本。
提供机构:
speedcell4
原始信息汇总
数据集概述
特征
- translations: 包含多种语言的翻译数据。
- 语言:
- ar, az, be, bg, bn, bs, calv, cs, da, de, el, en, eo, es, et, eu, fa, fi, fr, fr-ca, gl, he, hi, hr, hu, hy, id, it, ja, ka, kk, ko, ku, lt, mk, mn, mr, ms, my, nb, nl, pl, pt, pt-br, ro, ru, sk, sl, sq, sr, sv, ta, th, tr, uk, ur, vi, zh, zh-cn, zh-tw
- 语言数量: 60
- 语言:
- talk_name: 字符串类型,可能表示对话或讨论的名称。
数据分割
- train:
- 字节数: 746699460
- 样本数: 258098
- validation:
- 字节数: 19396220
- 样本数: 6049
- test:
- 字节数: 23317293
- 样本数: 7213
数据集大小
- 下载大小: 526470120 字节
- 数据集总大小: 789412973 字节
配置
- config_name: default
- 数据文件路径:
- train: data/train-*
- validation: data/validation-*
- test: data/test-*
- 数据文件路径:
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



