herman-json-mode

Hugging Face2024-08-30 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/SulthanAbiyyu/herman-json-mode

下载链接

链接失效反馈

官方服务：

资源简介：

Herman是一个印度尼西亚语数据集，专门用于训练大型语言模型（LLMs）使用单轮JSON模式。该数据集通过监督微调（SFT）来提升LLMs中的JSON解析能力。Herman是从Hermes数据集翻译而来，用于训练印度尼西亚语模型。数据集的结构遵循特定的JSON模式，包括标题、类型、属性和必需字段等。

Herman is an Indonesian language dataset specifically designed for training large language models (LLMs) in single-turn JSON mode. This dataset enhances the JSON parsing capability of LLMs through supervised fine-tuning (SFT). Derived from the Hermes dataset, Herman is translated and adapted for training Indonesian language models. The structure of the dataset follows a specific JSON schema, including fields such as title, type, properties, and required fields.

创建时间：

2024-08-30

原始信息汇总

Herman: Indonesian Single-Turn JSON Mode

概述

Herman是一个专门为使用单轮JSON模式训练LLMs而设计的印度尼西亚语数据集。该数据集用于监督微调（SFT），以提高LLMs中的JSON解析能力。Herman数据集源自Hermes，并被翻译成印度尼西亚语，用于训练印度尼西亚语模型。

数据集信息

许可证: Apache-2.0
语言: 印度尼西亚语
任务类别:
- 文本生成
- 特征提取
大小类别: 1K<n<10K
配置:
- 默认配置: default
- 数据文件: herman-json-mode.csv

数据格式

数据集使用特定的JSON模式格式，该格式可以通过在系统提示中使用<schema>标签和结束</schema>标签来包含。

JSON模式示例

json <schema> { "title": "schema name", "type": "object", "properties": { "property_name_1": { "title": "property title", "type": "data type", "format": "data format" }, ..., ... }, "required": ["property_name_1", ...] } </schema>

字段说明

title: JSON模式的名称或标题。
type: 指定模式的主要类型，通常为object。
properties: 要查找的属性/键的列表。
- title: 属性的名称或简短描述。
- type: 数据类型，例如string（文本）、number（数值）、boolean（布尔值）、object（嵌套对象）等。
- format（可选）: 属性的特定格式（如果需要）。
required: 必须在JSON对象中存在的属性列表。

使用方法

python from datasets import load_dataset

data = load_dataset("SulthanAbiyyu/herman-json-mode")

参考文献

bibtex @misc{Hermes-Function-Calling-Dataset-V1, url={https://huggingface.co/NousResearch/hermes-function-calling-v1}, title={Hermes-Function-Calling-Dataset-V1}, author={"interstellarninja", "Teknium"} }

搜集汇总

数据集介绍

构建方式

Herman数据集是基于Hermes数据集构建的，专门针对印度尼西亚语进行翻译和适配，旨在提升大型语言模型（LLMs）在JSON解析方面的能力。该数据集的构建过程包括从Hermes数据集中提取原始数据，并将其翻译为印度尼西亚语，最终以单轮JSON模式进行格式化。构建代码已开源，便于复现和扩展。

使用方法

使用Herman数据集时，可通过Hugging Face的`datasets`库加载数据。用户只需调用`load_dataset`函数并指定数据集名称即可获取数据。该数据集适用于监督微调（SFT）任务，能够有效提升模型在JSON解析和生成方面的表现。加载后的数据可直接用于训练或评估印度尼西亚语语言模型。

背景与挑战

背景概述

Herman数据集是一个专门为印尼语设计的单轮JSON模式数据集，旨在通过监督微调（SFT）提升大语言模型（LLMs）在JSON解析方面的能力。该数据集基于Hermes数据集，并由研究人员Sulthan Abiyyu等人翻译为印尼语，以支持印尼语语言模型的训练。Herman的创建时间为近期，主要应用于文本生成和特征提取任务，其规模介于1K到10K之间。该数据集的推出为印尼语自然语言处理领域提供了重要的资源支持，特别是在JSON格式数据处理方面，填补了相关研究的空白。

当前挑战

Herman数据集在构建和应用过程中面临多重挑战。首先，JSON解析任务本身对语言模型的精确性和上下文理解能力提出了较高要求，尤其是在印尼语这种资源相对匮乏的语言环境中，如何确保模型能够准确解析复杂的JSON结构是一个关键问题。其次，数据集的构建过程中，翻译和适配Hermes数据集到印尼语时，需确保语义的准确性和一致性，这对翻译质量和数据标注提出了较高要求。此外，如何在有限的样本规模下，确保模型的泛化能力，避免过拟合，也是该数据集应用中的一大挑战。

常用场景

经典使用场景

Herman数据集专为印尼语单轮JSON模式设计，广泛应用于大型语言模型（LLMs）的监督微调（SFT）过程中。通过该数据集，研究人员能够有效提升模型在JSON解析任务中的表现，特别是在处理印尼语文本时，模型能够更准确地理解和生成符合特定JSON格式的响应。这一场景在自然语言处理领域尤为重要，尤其是在需要模型与结构化数据进行交互的应用中。

解决学术问题

Herman数据集解决了在印尼语环境下，LLMs在处理JSON格式数据时的性能瓶颈问题。通过提供高质量的印尼语JSON数据，该数据集帮助模型更好地理解JSON结构，并提升其在生成和解析JSON时的准确性。这一突破不仅推动了印尼语自然语言处理技术的发展，还为多语言JSON解析任务提供了新的研究思路和方法。

实际应用

在实际应用中，Herman数据集被广泛用于开发印尼语智能助手和自动化工具。例如，在印尼语客服系统中，模型可以通过解析用户输入的JSON格式请求，快速生成符合业务逻辑的响应。此外，该数据集还被用于金融、医疗等领域的数据处理任务，帮助自动化系统更高效地处理结构化数据，提升整体工作效率。

数据集最近研究