five

pythainlp/thai-aligninstruct-dataset

收藏
Hugging Face2024-05-12 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/pythainlp/thai-aligninstruct-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Thai Aligninstruct数据集旨在创建英语-泰语对齐指令。该数据集使用了simalign技术进行高质量的词对齐,并使用deepcut进行泰语分词。数据来源于scb-mt-en-th-2020数据集。数据集包含多个分割,如th2en、en2th、mtinstruct_th2en和mtinstruct_en2th,每个分割都有相应的字节数和示例数。数据集的总下载大小为349631371字节,总数据集大小为912129103字节。

Thai Aligninstruct数据集旨在创建英语-泰语对齐指令。该数据集使用了simalign技术进行高质量的词对齐,并使用deepcut进行泰语分词。数据来源于scb-mt-en-th-2020数据集。数据集包含多个分割,如th2en、en2th、mtinstruct_th2en和mtinstruct_en2th,每个分割都有相应的字节数和示例数。数据集的总下载大小为349631371字节,总数据集大小为912129103字节。
提供机构:
pythainlp
原始信息汇总

数据集概述

数据集信息

特征

  • id: 数据类型为 int64
  • q: 数据类型为 string
  • a: 数据类型为 string

数据分割

  • th2en:
    • 字节数: 261404758
    • 样本数: 438008
  • en2th:
    • 字节数: 261020179
    • 样本数: 437191
  • mtinstruct_th2en:
    • 字节数: 194991586
    • 样本数: 438008
  • mtinstruct_en2th:
    • 字节数: 194712580
    • 样本数: 437191

数据大小

  • 下载大小: 349631371 字节
  • 数据集大小: 912129103 字节

配置

  • 默认配置:
    • th2en: 文件路径为 data/th2en-*
    • en2th: 文件路径为 data/en2th-*
    • mtinstruct_th2en: 文件路径为 data/mtinstruct_th2en-*
    • mtinstruct_en2th: 文件路径为 data/mtinstruct_en2th-*

许可

  • 许可证: cc-by-3.0

语言

  • 泰语 (th)
  • 英语 (en)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作