AppliedCourse_SFT_datasets

Hugging Face2026-01-16 更新2026-01-17 收录

下载链接：

https://huggingface.co/datasets/daichira/AppliedCourse_SFT_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集是一个专注于结构化输出（如CSV、JSON、XML）的监督微调（SFT）学习数据集，旨在进行形式转换和信息提取任务。数据集采用OpenAI messages格式的JSONL文件，每个样本包含用户和助手之间的对话，助手的输出严格遵循指定的格式规范。数据集来源于多个公开数据源，使用时需遵守各原始数据集的许可和条款。数据集包含多个配置，如tabular（CSV与JSON转换）、xml（XML到JSON转换）、gtfs（GTFS风文本到JSON提取）和hard_mixed（复合高难度任务），分别针对不同的任务和难度级别。

创建时间：

2026-01-02

原始信息汇总

AppliedCourse SFT Datasets 数据集概述

数据集简介

本数据集是专注于结构化输出（CSV / JSON / XML）格式转换及信息提取任务的监督微调（SFT）学习数据集。各样本以OpenAI / ShareGPT 兼容的 messages 格式（[{role, content}, ...]）的 JSONL 文件提供，assistant 的输出被设计为严格遵循指定的格式规范。

数据集详情

目的：用于高质量学习结构化输出任务中的格式转换（CSV ↔ JSON、XML → JSON 等）和信息提取（Text / CSV / XML → JSON）。
语言：日语（ja）。
任务类别：文本生成（text-generation）。
标签：sft, instruction-tuning, structured-data, json, csv, xml。
格式：OpenAI messages 格式的 JSONL（1行 = 1个样本）。
主要任务示例：
- CSV ↔ JSON
- XML → JSON
- Text → JSON
- GTFS 风格文本 → JSON（关系提取）

数据集结构

数据集采用基于目录的配置结构，每个配置由 Hugging Face Datasets Viewer 自动识别。

配置（Configurations）

tabular：CSV ↔ JSON 转换，包含扁平至简易层次表格，为 Colab 执行设计了安全的令牌长度。
xml：XML → JSON 转换，使用仅由安全列生成的合成 XML，不使用原始标记文档。
gtfs：GTFS 风格文本 → JSON 提取，属于关系导向的结构化提取任务。
hard_mixed：复合高难度任务，包含约束条件多或对抗性的结构转换，适用于高级学习和评估用途。

数据格式

每个样本具有以下格式： json { "id": "...", "category": "C1", "subcategory": "csv_to_json", "task": "extract", "seed": "openfoodfacts", "messages": [ {"role": "user", "content": "..."}, {"role": "assistant", "content": "..."} ] }

推荐顶级列：

id : string（稳定哈希）
category : string（内部类别）
subcategory : string（任务名例：csv_to_json）
task : string（extract / transform / filter）
seed : string（标识原始数据来源/组合的标识符）
messages : list（OpenAI messages 格式）

预期用途

结构化输出任务的监督微调（SFT）
教育用途（讲座、练习、学生竞赛）
格式耐受性（CSV / JSON / XML）的实验与评估

数据收集过程

仅使用 Hugging Face 上公开数据集中安全且非敏感的列。
经过轻微的正规化和格式化后转化为任务。
在每个任务中：
- 通过提示明确输入输出格式规范。
- 设计基于结构上合理输出的前提。

来源与条款（重要）

本数据集依赖于多个上游公开数据集，包括：

OpenFoodFacts product-database
- 数据库：Open Database License (ODbL 1.0)
- 内容：Database Contents License (DbCL 1.0)
- 参考：https://world.openfoodfacts.org/data
Shopify/product-catalogue
- 使用条件请参考数据集卡片
- 参考：https://huggingface.co/datasets/Shopify/product-catalogue
ontologicalapple/vrts-gtfs-archive
- 遵循各 GTFS 提供方的 Open Data Terms
- 参考：https://huggingface.co/datasets/ontologicalapple/vrts-gtfs-archive

注意：本仓库并非直接重新分发上游数据。即使是衍生数据（任务化、格式化），用户仍需遵守原始数据的许可义务（如署名要求）。

许可信息

许可证：other
使用本数据集时，必须遵守各上游数据集的许可证和使用条款（如 ODbL / DbCL 等）。
本 README 旨在帮助理解遵守事项。

局限性

不保证对模糊或规范未定义的指令的输出质量。
有意包含多种困难案例（如空值混合、结构波动等）。

使用方法

python from datasets import load_dataset

ds = load_dataset("daichira/AppliedCourse_SFT_datasets", split="train") print(len(ds), ds.column_names) print(ds[0]["messages"][0]["content"])

维护者

daichira

搜集汇总

数据集介绍

构建方式

在数据科学领域，结构化数据的转换与提取任务对模型能力提出较高要求。AppliedCourse_SFT_datasets的构建过程依托多个公开数据源，如OpenFoodFacts产品数据库与Shopify产品目录，从中筛选安全且非敏感的数据列进行任务化处理。通过轻度的规范化与格式调整，将原始数据转化为符合指令微调需求的样本，每个样本均遵循OpenAI messages格式，并严格规定了输出必须符合指定的结构化格式（如CSV、JSON或XML），从而确保数据在形式转换与信息提取任务中的一致性与可靠性。

使用方法

为有效利用本数据集进行监督微调，用户可通过Hugging Face的datasets库直接加载，指定相应配置以获取不同任务类型的数据。在模型训练过程中，应注重遵循数据源附带的许可协议，确保合规使用。数据集适用于结构化输出任务的模型训练、学术教学以及格式鲁棒性评估，用户可依据任务需求选择合适配置，例如针对基础转换任务使用tabular配置，而对复杂场景则可调用hard_mixed配置以挑战模型极限。

背景与挑战

背景概述

在自然语言处理领域，指令微调技术旨在提升模型遵循结构化输出要求的能力。AppliedCourse_SFT_datasets作为一项专注于结构化数据转换与信息抽取任务的监督微调数据集，由研究者daichira于HuggingFace平台发布。该数据集依托多个公开上游数据源，如OpenFoodFacts与Shopify产品目录，通过精心设计的配置支持CSV、JSON、XML等格式间的转换任务。其核心研究问题聚焦于增强模型对复杂结构化输出的生成精确性与格式一致性，为教育场景与工业应用中的数据处理自动化提供了关键资源，推动了指令跟随模型在结构化任务中的实用化进程。

当前挑战

该数据集致力于解决结构化数据转换与信息抽取领域的核心挑战，包括处理异构数据格式间的语义对齐、维持输出严格遵循预定义模式，以及应对输入中存在的空值或结构不一致性。在构建过程中，挑战主要源于上游数据源的多样性与许可约束，需在遵守ODbL等开放许可的前提下，从非敏感列中合成安全且任务导向的样本。此外，设计兼顾教育性与高难度的混合任务时，需平衡样本的复杂性与模型学习的稳定性，确保对抗性案例不会损害泛化性能。

常用场景

经典使用场景

在自然语言处理领域，结构化数据转换与信息抽取是提升模型实用性的关键环节。AppliedCourse_SFT_datasets专为监督微调设计，其经典使用场景聚焦于训练语言模型执行格式转换任务，例如将CSV或XML数据精确转换为JSON格式，或从非结构化文本中提取关系信息并结构化输出。该数据集通过模拟真实世界的数据处理需求，使模型能够学习遵循严格的格式规范，从而在学术实验与工程实践中实现高效的数据互操作与整合。

解决学术问题

该数据集致力于解决自然语言生成研究中结构化输出的准确性与一致性难题。学术研究常面临模型在生成JSON、CSV等格式时出现语法错误或语义偏差的问题，本数据集通过提供高质量、规范化的训练样本，帮助研究者探索模型在复杂约束下的泛化能力。其意义在于为格式转换与信息抽取任务建立了可复现的基准，推动了指令微调技术在结构化输出领域的深入应用，为后续研究提供了可靠的数据支撑。

实际应用

在实际应用层面，AppliedCourse_SFT_datasets能够服务于多种需要自动化数据处理的场景。例如，在电子商务领域，模型可借助该数据集学习将产品目录的CSV文件转换为JSON格式，以适配不同的API接口；在公共交通系统中，GTFS风格的文本数据可被抽取为结构化JSON，便于行程规划与分析。这些应用显著提升了数据流水线的效率，减少了人工干预，为企业级的数据集成与管理系统提供了智能化解决方案。

数据集最近研究