pythainlp/thai-aligninstruct-dataset
收藏Hugging Face2024-05-12 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/pythainlp/thai-aligninstruct-dataset
下载链接
链接失效反馈官方服务:
资源简介:
Thai Aligninstruct数据集旨在创建英语-泰语对齐指令。该数据集使用了simalign技术进行高质量的词对齐,并使用deepcut进行泰语分词。数据来源于scb-mt-en-th-2020数据集。数据集包含多个分割,如th2en、en2th、mtinstruct_th2en和mtinstruct_en2th,每个分割都有相应的字节数和示例数。数据集的总下载大小为349631371字节,总数据集大小为912129103字节。
Thai Aligninstruct数据集旨在创建英语-泰语对齐指令。该数据集使用了simalign技术进行高质量的词对齐,并使用deepcut进行泰语分词。数据来源于scb-mt-en-th-2020数据集。数据集包含多个分割,如th2en、en2th、mtinstruct_th2en和mtinstruct_en2th,每个分割都有相应的字节数和示例数。数据集的总下载大小为349631371字节,总数据集大小为912129103字节。
提供机构:
pythainlp
原始信息汇总
数据集概述
数据集信息
特征
- id: 数据类型为
int64 - q: 数据类型为
string - a: 数据类型为
string
数据分割
- th2en:
- 字节数: 261404758
- 样本数: 438008
- en2th:
- 字节数: 261020179
- 样本数: 437191
- mtinstruct_th2en:
- 字节数: 194991586
- 样本数: 438008
- mtinstruct_en2th:
- 字节数: 194712580
- 样本数: 437191
数据大小
- 下载大小: 349631371 字节
- 数据集大小: 912129103 字节
配置
- 默认配置:
- th2en: 文件路径为
data/th2en-* - en2th: 文件路径为
data/en2th-* - mtinstruct_th2en: 文件路径为
data/mtinstruct_th2en-* - mtinstruct_en2th: 文件路径为
data/mtinstruct_en2th-*
- th2en: 文件路径为
许可
- 许可证: cc-by-3.0
语言
- 泰语 (th)
- 英语 (en)



