five

pythainlp/oasst2_thai_top1_chat_format

收藏
Hugging Face2024-02-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pythainlp/oasst2_thai_top1_chat_format
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个来自OpenAssistant/oasst2的泰语数据集,采用HF聊天格式。

A top-1 Thai dataset taken from the top scoring OpenAssistant/oasst2 conversations, saved in HF Chat format. The dataset includes conversation content and roles, as well as language identifiers. It is divided into a training set with 167 samples, totaling 238601 bytes. Suitable for conversational and question-answering tasks, licensed under Apache 2.0.
提供机构:
pythainlp
原始信息汇总

数据集详情

数据集描述

一个来自最高分的 OpenAssistant/oasst2 对话的顶级泰语数据集。保存为 Hugging Face 聊天格式。

许可证: Apache 2.0

数据集结构

数据集使用常见的 Hugging Face 聊天模板输入格式进行结构化:

json [ {content: ยุงที่แอฟริกาบินหรือเดิน, role: user}, {content: บิน เพราะยุงทั่วโลกต่างบินเพื่อหาอาหาร, role: assistant} ]

数据集信息

特征

  • conversation:
    • content: 字符串类型
    • role: 字符串类型
  • langs: 字符串类型

分割

  • train:
    • 字节数: 238601
    • 样本数: 167

大小

  • 下载大小: 96701
  • 数据集大小: 238601

配置

  • default:
    • 数据文件:
      • train: data/train-*

任务类别

  • 对话
  • 问答

语言

  • 泰语

大小类别

  • n<1K
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作