pythainlp/scb-mt-en-th-2020_mt-opus
收藏Hugging Face2023-07-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pythainlp/scb-mt-en-th-2020_mt-opus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个大型的英语-泰语平行语料库,包含来自网络和机器生成的文本。数据集的特征包括英语(en)和泰语(th)的字符串类型数据。数据集分为训练集和测试集,训练集包含3,887,916个样本,测试集包含431,989个样本。数据集的下载大小为290,416,500字节,总大小为984,534,106字节。数据集的许可证为cc-by-sa-3.0,任务类别为翻译,语言为泰语和英语,大小类别为1M<n<10M。
提供机构:
pythainlp
原始信息汇总
数据集概述
数据集名称
- scb-mt-en-th-2020_mt-opus
数据集特征
- en: 数据类型为字符串
- th: 数据类型为字符串
数据集分割
- train: 包含3887916个样本,占用875585812字节
- test: 包含431989个样本,占用108948294字节
数据集大小
- 下载大小: 290416500字节
- 数据集总大小: 984534106字节
许可
- cc-by-sa-3.0
任务类别
- 翻译
语言
- 泰语 (th)
- 英语 (en)
大小类别
- 1M<n<10M



