dummy-structured-sft-20260107

Hugging Face2026-01-08 更新2026-01-09 收录

下载链接：

https://huggingface.co/datasets/daichira/dummy-structured-sft-20260107

下载链接

链接失效反馈

官方服务：

资源简介：

一个高质量的完全合成的SFT数据集，专注于结构化输出学习。提示涵盖转换和提取任务；答案经过确定性序列化和严格的语法验证。所有样本使用OpenAI 'messages' JSONL格式，并以仅包含目标结构的单个助手回合结束。数据集包括多个文件，针对不同的结构化输出学习方面，如一般任务、文本到XML转换、困难或深度嵌套结构以及TOML特定的增强。还详细说明了数据字段、使用示例和TOML使用的具体指南，以避免歧义并确保清晰性。此外，提供了推荐的学习计划和上采样设置，以提高模型在特定任务上的性能。

创建时间：

2026-01-07

原始信息汇总

数据集概述

数据集基本信息

数据集名称: Dummy Structured SFT (Synthetic)
数据集地址: https://huggingface.co/datasets/daichira/dummy-structured-sft-20260107
许可协议: Apache-2.0
数据性质: 完全合成数据，不包含任何第三方内容。

数据集核心内容

核心目标: 提供用于结构化输出学习的高质量、全合成监督微调数据集。
任务焦点: 涵盖转换和提取任务，专注于从JSON/YAML/CSV/文本生成XML/TOML/YAML以及跨格式转换。
数据格式: 所有样本均使用OpenAI "messages" JSONL格式，并以仅包含目标结构的单一助手回复结束。
答案生成: 答案采用确定性序列化器生成，并经过严格的语法验证。

文件构成

数据集包含以下JSONL文件：

dummy_structured_sft.jsonl (通用数据包)
dummy_structured_sft_text_to_xml.jsonl (针对文本→XML的定向数据)
dummy_structured_sft_hard.jsonl (困难/深度嵌套数据)
dummy_structured_sft_toml_aug.jsonl (TOML强化数据包：包含原生类型、嵌套、数组表格)
sft_toml_focus.jsonl (TOML集中数据：现有数据与困难数据的混合)

任务与子类别

XML输出任务: json_to_xml, yaml_to_xml, csv_to_xml, text_to_xml
YAML输出任务: xml_to_yaml, text_to_yaml
TOML输出任务: json_to_toml, yaml_to_toml, text_to_toml

数据字段说明

每个JSONL行包含以下字段： json { "id": "<sha12>", "category": "C_XML" | "C_TOML" | "C_YAML", "subcategory": "...", "task": "transform" | "extract", "seed": "dummy" | "dummy_hard" | "toml_aug", "messages": [ {"role": "user", "content": "<prompt>"}, {"role": "assistant", "content": "<target structure only>"} ] }

TOML强化数据包特点

禁止内联表格: 为避免歧义和换行错误，禁止使用TOML的 { ... } 内联表格。
利用原生类型: 数值/布尔值不加引号。数组使用 []，数组表格使用 [[...]]。
保持嵌套结构: 使用 [a.b] 等表格头部表示层次，明确嵌套结构。
设计重点: 该强化数据包设计为高频包含数值、浮点数、布尔值、数组和嵌套结构。

推荐训练配置

目标: 改善Text→TOML的稳定性和渲染精度，同时强化json/yaml→TOML的类型和结构处理能力。
推荐配比（每轮次）:
- text_to_toml: 40%（主要使用hard和toml_aug数据）
- json_to_toml: 30%（主要使用toml_aug数据）
- yaml_to_toml: 30%（主要使用toml_aug数据）
- 其他转换任务（XML/YAML）保持现有水平。
推荐上采样设置示例:
- text_to_toml: 2.3
- json_to_toml: 1.8
- yaml_to_toml: 1.8
- 其他任务上采样因子在1.4至1.8之间。
调整建议: 根据实际样本数微调，使text_to_toml的比率维持在35–45%之间。

搜集汇总

数据集介绍

构建方式

在结构化输出学习领域，高质量数据集的构建至关重要。该数据集采用完全合成的方式生成，专注于XML、TOML和YAML等格式的转换与提取任务。构建过程中，答案通过确定性序列化器生成，并经过严格的语法验证，确保每个样本的输出结构准确无误。所有数据均遵循OpenAI消息格式，以JSONL文件存储，每条记录包含用户提示和仅含目标结构的助手回复，从而为模型训练提供了纯净且一致的数据基础。

特点

本数据集的核心特点在于其针对结构化输出的专门化设计。它涵盖了从JSON、YAML、CSV及文本到XML、TOML、YAML的跨格式转换任务，并细分为通用、文本转XML、高难度嵌套以及TOML强化等多个子集。特别在TOML强化部分，数据集明确禁止使用易出错的內联表格，强制采用原生数据类型和清晰的嵌套表头结构，以提升模型处理复杂数据类型的鲁棒性。这种分层与聚焦的设计，使得数据集能够有效应对不同难度和侧重点的训练需求。

使用方法

为充分利用该数据集进行模型训练，用户可通过`datasets`库分别加载不同的子集文件，例如通用包、文本转XML专集或TOML强化包。数据集卡片提供了详细的训练配合建议，包括各类任务样本的推荐比例和上采样权重设置，旨在优化模型在特定转换任务上的性能。用户可根据实际训练目标，参考提供的环境变量配置示例，灵活调整采样策略，以实现对文本到TOML等关键任务的重点强化，从而系统性地提升模型生成结构化输出的准确性与稳定性。

背景与挑战

背景概述

在自然语言处理领域，结构化输出学习旨在使模型能够生成严格遵循特定语法格式的文本，如XML、TOML和YAML。dummy-structured-sft-20260107数据集于2024年发布，由专注于数据合成的匿名研究团队构建，核心研究问题聚焦于提升大型语言模型在跨格式转换与信息提取任务中的精确性与可靠性。该数据集通过提供高质量、完全合成的监督微调样本，推动了模型在结构化数据生成方面的能力，对自动化文档处理、配置管理及数据交换等应用场景产生了显著影响。

当前挑战

该数据集致力于解决结构化输出生成中的关键挑战，包括确保模型在跨格式转换时维持语义一致性，以及处理深层嵌套、数组表格等复杂结构时的语法准确性。构建过程中的挑战主要源于生成过程的确定性要求，例如设计严格的序列化验证器以避免内联表格等易错结构，同时平衡不同任务类别的样本分布，以实现模型在文本到TOML等特定转换上的稳定性提升。

常用场景

经典使用场景

在结构化数据转换与提取的研究领域中，dummy-structured-sft-20260107数据集为监督式微调提供了高质量的合成语料。该数据集的核心应用场景聚焦于跨格式数据转换，例如将JSON、YAML、CSV或自然语言文本精确转换为XML、TOML或YAML等结构化输出。通过涵盖深度嵌套、数组表格及原生类型处理等复杂情形，数据集能够系统训练模型遵循严格语法规范，确保生成的结构化内容具备确定性的序列化特性与无误的语法验证。

衍生相关工作

围绕该数据集衍生的经典研究工作主要集中于结构化输出的生成优化与模型微调策略。例如，研究者利用其细分任务包（如text_to_xml或toml_aug）探索了多任务学习框架下模型对异构格式的适应能力。相关工作进一步开发了基于确定性序列化器的验证管道，以确保生成内容的语法完整性。此外，数据集提供的上采样配置方案启发了针对不平衡转换任务的采样策略研究，推动了在有限数据下提升模型在特定子任务（如文本到TOML转换）上性能的方法创新。

数据集最近研究