pythainlp/scb_mt_2020_en2th_prompt
收藏Hugging Face2023-11-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pythainlp/scb_mt_2020_en2th_prompt
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从scb_mt_enth_2020中移除nus_sms和paracrawl后创建的,主要用于文本到文本生成和文本分类任务,语言为泰语。数据集包含训练、验证和测试三个分割,分别包含801402、88927和88931个例子。
该数据集是从scb_mt_enth_2020中移除nus_sms和paracrawl后创建的,主要用于文本到文本生成和文本分类任务,语言为泰语。数据集包含训练、验证和测试三个分割,分别包含801402、88927和88931个例子。
提供机构:
pythainlp
原始信息汇总
数据集概述
数据集信息
-
特征:
inputs: 数据类型为stringtargets: 数据类型为string
-
拆分:
train: 字节数为 500257169,样本数为 801402validation: 字节数为 61671631,样本数为 88927test: 字节数为 61225544,样本数为 88931
-
大小:
- 下载大小: 212863737 字节
- 数据集大小: 623154344 字节
-
许可证: cc-by-sa-4.0
-
任务类别:
- 文本生成
- 文本分类
-
语言:
- 泰语
-
大小类别:
- 100K < n < 1M



