Thaweewat/hc3-24k-th
收藏Hugging Face2023-05-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Thaweewat/hc3-24k-th
下载链接
链接失效反馈官方服务:
资源简介:
这是一个泰语指令数据集,通过Google Cloud Translation从HC3数据集翻译而来,包含了24K条数据,分别来自reddit_eli5、finance、medicine、open_qa和wiki_csai等来源。该数据集是第一个人类与ChatGPT比较的语料库,支持的任务包括训练大型语言模型、生成合成数据和数据增强。
这是一个泰语指令数据集,通过Google Cloud Translation从HC3数据集翻译而来,包含了24K条数据,分别来自reddit_eli5、finance、medicine、open_qa和wiki_csai等来源。该数据集是第一个人类与ChatGPT比较的语料库,支持的任务包括训练大型语言模型、生成合成数据和数据增强。
提供机构:
Thaweewat
原始信息汇总
数据集概述
基本信息
- 许可证: cc-by-sa-3.0
- 任务类别:
- 问答
- 摘要
- 标签:
- 指令微调
- 语言:
- 泰语
- 数据集大小:
- 10K<n<100K
详细描述
- 数据来源: 该数据集是从HC3翻译而来的泰语指令数据集,使用Google Cloud Translation进行翻译。
- 数据组成:
- 总计24K条数据
- 包括17K reddit_eli5, 4K finance, 1.2K medicine, 1.2K open_qa和0.8K wiki_csai
相关研究
支持任务
- 训练大型语言模型
- 合成数据生成
- 数据增强
其他信息
- 版本: 1.0



