pythainlp/han-instruct-dataset-v1.0
收藏Hugging Face2024-04-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pythainlp/han-instruct-dataset-v1.0
下载链接
链接失效反馈官方服务:
资源简介:
Han Instruct Dataset (v1.0) 是一个泰语指令数据集,由PyThaiNLP创建。该数据集收集了来自多个来源的泰语指令数据,包括泰语维基百科的参考台、法律信息、人工检查和编辑的数据集、自我指令生成的数据以及人工注释者。数据集的结构包括输入(问题)和目标(答案),主要用于聊天机器人和指令跟随任务。
Han Instruct Dataset (v1.0) 是一个泰语指令数据集,由PyThaiNLP创建。该数据集收集了来自多个来源的泰语指令数据,包括泰语维基百科的参考台、法律信息、人工检查和编辑的数据集、自我指令生成的数据以及人工注释者。数据集的结构包括输入(问题)和目标(答案),主要用于聊天机器人和指令跟随任务。
提供机构:
pythainlp
原始信息汇总
数据集卡片 "han-instruct-dataset-v1.0"
数据集描述
数据集摘要
Han (ห่าน or goose) Instruct Dataset 是由 PyThaiNLP 提供的泰语指令数据集。该数据集收集了来自多个来源的泰语指令跟随数据。
数据来源包括:
- Reference desk at Thai wikipedia
- Law from justicechannel.org
- pythainlp/final_training_set_v1_enth
- Self-instruct from WangChanGLM
- Wannaphong.com
- 人工标注
支持的任务和排行榜
- 聊天机器人
- 指令跟随
语言
泰语
数据集结构
数据字段
- inputs: 问题
- targets: 答案
数据分割
- 训练集:1951个样本,1461218字节
使用数据的注意事项
数据集可能存在人工标注的偏差。在使用数据集进行模型训练或应用之前,应检查并选择或移除指令。
许可信息
CC-BY-SA 4.0
引用信息
如果您在项目或出版物中使用了 Han Instruct Dataset (v1.0),请按以下方式引用:
Phatthiyaphaibun, W. (2024). Han Instruct Dataset (v1.0) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.10935822
或
bib @dataset{phatthiyaphaibun_2024_10935822, author = {Phatthiyaphaibun, Wannaphong}, title = {Han Instruct Dataset}, month = apr, year = 2024, publisher = {Zenodo}, version = {v1.0}, doi = {10.5281/zenodo.10935822}, url = {https://doi.org/10.5281/zenodo.10935822} }
Zenodo链接:https://zenodo.org/records/10935822



