pythainlp/thai-open-data-go-th
收藏Hugging Face2024-03-13 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/pythainlp/thai-open-data-go-th
下载链接
链接失效反馈官方服务:
资源简介:
该数据集收集了来自data.go.th网站(仅限CC-BY许可证)的所有文本,并对数据进行了预处理以供预训练模型使用。数据集包括多个子集,如民间玩具、民间故事、ARDA博客、泰国仪式、泰国旧社区区域、泰国水族馆和泰国鱼类数据库等。数据集的结构包括文本和元数据特征,以及训练集分割。
该数据集收集了来自data.go.th网站(仅限CC-BY许可证)的所有文本,并对数据进行了预处理以供预训练模型使用。数据集包括多个子集,如民间玩具、民间故事、ARDA博客、泰国仪式、泰国旧社区区域、泰国水族馆和泰国鱼类数据库等。数据集的结构包括文本和元数据特征,以及训练集分割。
提供机构:
pythainlp
原始信息汇总
数据集概述
数据集信息
-
特征:
text: 数据类型为字符串。meta: 结构化数据,包含以下字段:domain: 数据类型为字符串。license: 数据类型为字符串。source: 数据类型为字符串。title: 数据类型为字符串。
-
数据分割:
train: 包含4,531,638字节的数据,共有2,349个样本。
-
下载大小: 1,489,789字节。
-
数据集大小: 4,531,638字节。
配置
- 默认配置:
- 数据文件路径:
data/train-*。
- 数据文件路径:
许可证
- 许可证: CC-BY-3.0。
任务类别
- 任务类别: 文本生成。
语言
- 语言: 泰语。
数据集大小类别
- 大小类别: 1K<n<10K。



