five

afrizalha/Gatra-1-Javanese

收藏
Hugging Face2024-05-03 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/afrizalha/Gatra-1-Javanese
下载链接
链接失效反馈
官方服务:
资源简介:
Gatra-1是一个合成数据集,用于微调大型语言模型(LLMs)以使其能够用爪哇语的高等语体(Jawa Krama)进行响应。该数据集主要由GPT-4生成,包含560个输入输出提示,主要用于教育领域的问答对生成。数据集的目的是通过微调唤醒模型对低资源语言的理解能力,特别是在爪哇语保护方面的应用。数据集目前处于测试阶段,未来有望扩展更多领域。

Gatra-1是一个合成数据集,用于微调大型语言模型(LLMs)以使其能够用爪哇语的高等语体(Jawa Krama)进行响应。该数据集主要由GPT-4生成,包含560个输入输出提示,主要用于教育领域的问答对生成。数据集的目的是通过微调唤醒模型对低资源语言的理解能力,特别是在爪哇语保护方面的应用。数据集目前处于测试阶段,未来有望扩展更多领域。
提供机构:
afrizalha
原始信息汇总

Gatra-1 数据集概述

数据集基本信息

  • 许可证: cc-by-sa-4.0
  • 语言: jv (爪哇语)
  • 数据规模: n<1K
  • 任务类别: text-generation
  • 数据集名称: Gatra-1

数据集描述

Gatra-1 是一个用于微调大型语言模型(LLMs)以响应爪哇语高阶(Jawa Krama)的合成数据集。该数据集主要由 GPT-4 生成,具有良好的爪哇语高阶能力,目前为 beta 版本,包含 560 个输入-输出提示。

数据集详情

  • 数据组成: 包含 273654 个基于 OpenAI GPT-4 分词器的标记,包括系统指令。数据几乎完全合成,仅包含少量人工校对。
  • 数据内容: 主要包含关于教育领域的自然语言生成(NLG),特别是学术学科的问答对(QA pairs)。文本理解和生成均为合成生成。
  • 生成方法: 通过要求模型创建问答对来显著提高问题创建时间,例如,通过提示“请创建一个关于 x 的问答对”,其中 x 是学术学科的名称。
  • 语言一致性: GPT-4 通常使用不一致的爪哇语高阶,需要大量的提示工程来确保其响应的一致性。

数据集目标

该数据集旨在通过微调 LLMs 来促进低资源语言的保存,特别是通过微调 LLMs 来增强对爪哇语高阶的理解和响应能力。

数据集贡献

该数据集由 Afrizal Hasbi Azizy 创作,并得到了 dflabs.id 的部分财务支持。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作