afrizalha/Gatra-1-Javanese
收藏Hugging Face2024-05-03 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/afrizalha/Gatra-1-Javanese
下载链接
链接失效反馈官方服务:
资源简介:
Gatra-1是一个合成数据集,用于微调大型语言模型(LLMs)以使其能够用爪哇语的高等语体(Jawa Krama)进行响应。该数据集主要由GPT-4生成,包含560个输入输出提示,主要用于教育领域的问答对生成。数据集的目的是通过微调唤醒模型对低资源语言的理解能力,特别是在爪哇语保护方面的应用。数据集目前处于测试阶段,未来有望扩展更多领域。
Gatra-1是一个合成数据集,用于微调大型语言模型(LLMs)以使其能够用爪哇语的高等语体(Jawa Krama)进行响应。该数据集主要由GPT-4生成,包含560个输入输出提示,主要用于教育领域的问答对生成。数据集的目的是通过微调唤醒模型对低资源语言的理解能力,特别是在爪哇语保护方面的应用。数据集目前处于测试阶段,未来有望扩展更多领域。
提供机构:
afrizalha
原始信息汇总
Gatra-1 数据集概述
数据集基本信息
- 许可证: cc-by-sa-4.0
- 语言: jv (爪哇语)
- 数据规模: n<1K
- 任务类别: text-generation
- 数据集名称: Gatra-1
数据集描述
Gatra-1 是一个用于微调大型语言模型(LLMs)以响应爪哇语高阶(Jawa Krama)的合成数据集。该数据集主要由 GPT-4 生成,具有良好的爪哇语高阶能力,目前为 beta 版本,包含 560 个输入-输出提示。
数据集详情
- 数据组成: 包含 273654 个基于 OpenAI GPT-4 分词器的标记,包括系统指令。数据几乎完全合成,仅包含少量人工校对。
- 数据内容: 主要包含关于教育领域的自然语言生成(NLG),特别是学术学科的问答对(QA pairs)。文本理解和生成均为合成生成。
- 生成方法: 通过要求模型创建问答对来显著提高问题创建时间,例如,通过提示“请创建一个关于 x 的问答对”,其中 x 是学术学科的名称。
- 语言一致性: GPT-4 通常使用不一致的爪哇语高阶,需要大量的提示工程来确保其响应的一致性。
数据集目标
该数据集旨在通过微调 LLMs 来促进低资源语言的保存,特别是通过微调 LLMs 来增强对爪哇语高阶的理解和响应能力。
数据集贡献
该数据集由 Afrizal Hasbi Azizy 创作,并得到了 dflabs.id 的部分财务支持。



