pythainlp/oasst2_thai_top1_chat_format
收藏Hugging Face2024-02-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pythainlp/oasst2_thai_top1_chat_format
下载链接
链接失效反馈官方服务:
资源简介:
这是一个来自OpenAssistant/oasst2的泰语数据集,采用HF聊天格式。
A top-1 Thai dataset taken from the top scoring OpenAssistant/oasst2 conversations, saved in HF Chat format. The dataset includes conversation content and roles, as well as language identifiers. It is divided into a training set with 167 samples, totaling 238601 bytes. Suitable for conversational and question-answering tasks, licensed under Apache 2.0.
提供机构:
pythainlp
原始信息汇总
数据集详情
数据集描述
一个来自最高分的 OpenAssistant/oasst2 对话的顶级泰语数据集。保存为 Hugging Face 聊天格式。
许可证: Apache 2.0
数据集结构
数据集使用常见的 Hugging Face 聊天模板输入格式进行结构化:
json [ {content: ยุงที่แอฟริกาบินหรือเดิน, role: user}, {content: บิน เพราะยุงทั่วโลกต่างบินเพื่อหาอาหาร, role: assistant} ]
数据集信息
特征
- conversation:
- content: 字符串类型
- role: 字符串类型
- langs: 字符串类型
分割
- train:
- 字节数: 238601
- 样本数: 167
大小
- 下载大小: 96701
- 数据集大小: 238601
配置
- default:
- 数据文件:
- train: data/train-*
- 数据文件:
任务类别
- 对话
- 问答
语言
- 泰语
大小类别
- n<1K



