five

AppliedCourse_SFT_datasets

收藏
Hugging Face2026-01-16 更新2026-01-17 收录
下载链接:
https://huggingface.co/datasets/daichira/AppliedCourse_SFT_datasets
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集是一个专注于结构化输出(如CSV、JSON、XML)的监督微调(SFT)学习数据集,旨在进行形式转换和信息提取任务。数据集采用OpenAI messages格式的JSONL文件,每个样本包含用户和助手之间的对话,助手的输出严格遵循指定的格式规范。数据集来源于多个公开数据源,使用时需遵守各原始数据集的许可和条款。数据集包含多个配置,如tabular(CSV与JSON转换)、xml(XML到JSON转换)、gtfs(GTFS风文本到JSON提取)和hard_mixed(复合高难度任务),分别针对不同的任务和难度级别。
创建时间:
2026-01-02
原始信息汇总

AppliedCourse SFT Datasets 数据集概述

数据集简介

本数据集是专注于结构化输出(CSV / JSON / XML)格式转换及信息提取任务监督微调(SFT)学习数据集。各样本以OpenAI / ShareGPT 兼容的 messages 格式[{role, content}, ...])的 JSONL 文件提供,assistant 的输出被设计为严格遵循指定的格式规范

数据集详情

  • 目的:用于高质量学习结构化输出任务中的格式转换(CSV ↔ JSON、XML → JSON 等)和信息提取(Text / CSV / XML → JSON)。
  • 语言:日语(ja)。
  • 任务类别:文本生成(text-generation)。
  • 标签:sft, instruction-tuning, structured-data, json, csv, xml。
  • 格式:OpenAI messages 格式的 JSONL(1行 = 1个样本)。
  • 主要任务示例
    • CSV ↔ JSON
    • XML → JSON
    • Text → JSON
    • GTFS 风格文本 → JSON(关系提取)

数据集结构

数据集采用基于目录的配置结构,每个配置由 Hugging Face Datasets Viewer 自动识别。

配置(Configurations)

  • tabular:CSV ↔ JSON 转换,包含扁平至简易层次表格,为 Colab 执行设计了安全的令牌长度。
  • xml:XML → JSON 转换,使用仅由安全列生成的合成 XML,不使用原始标记文档。
  • gtfs:GTFS 风格文本 → JSON 提取,属于关系导向的结构化提取任务。
  • hard_mixed:复合高难度任务,包含约束条件多或对抗性的结构转换,适用于高级学习和评估用途。

数据格式

每个样本具有以下格式: json { "id": "...", "category": "C1", "subcategory": "csv_to_json", "task": "extract", "seed": "openfoodfacts", "messages": [ {"role": "user", "content": "..."}, {"role": "assistant", "content": "..."} ] }

推荐顶级列

  • id : string(稳定哈希)
  • category : string(内部类别)
  • subcategory : string(任务名例:csv_to_json)
  • task : string(extract / transform / filter)
  • seed : string(标识原始数据来源/组合的标识符)
  • messages : list(OpenAI messages 格式)

预期用途

  • 结构化输出任务的监督微调(SFT)
  • 教育用途(讲座、练习、学生竞赛)
  • 格式耐受性(CSV / JSON / XML)的实验与评估

数据收集过程

  • 仅使用 Hugging Face 上公开数据集安全且非敏感的列
  • 经过轻微的正规化和格式化后转化为任务。
  • 在每个任务中:
    • 通过提示明确输入输出格式规范。
    • 设计基于结构上合理输出的前提。

来源与条款(重要)

本数据集依赖于多个上游公开数据集,包括:

  • OpenFoodFacts product-database
    • 数据库:Open Database License (ODbL 1.0)
    • 内容:Database Contents License (DbCL 1.0)
    • 参考:https://world.openfoodfacts.org/data
  • Shopify/product-catalogue
    • 使用条件请参考数据集卡片
    • 参考:https://huggingface.co/datasets/Shopify/product-catalogue
  • ontologicalapple/vrts-gtfs-archive
    • 遵循各 GTFS 提供方的 Open Data Terms
    • 参考:https://huggingface.co/datasets/ontologicalapple/vrts-gtfs-archive

注意:本仓库并非直接重新分发上游数据。即使是衍生数据(任务化、格式化),用户仍需遵守原始数据的许可义务(如署名要求)

许可信息

  • 许可证other
  • 使用本数据集时,必须遵守各上游数据集的许可证和使用条款(如 ODbL / DbCL 等)。
  • 本 README 旨在帮助理解遵守事项。

局限性

  • 不保证对模糊或规范未定义的指令的输出质量。
  • 有意包含多种困难案例(如空值混合、结构波动等)。

使用方法

python from datasets import load_dataset

ds = load_dataset("daichira/AppliedCourse_SFT_datasets", split="train") print(len(ds), ds.column_names) print(ds[0]["messages"][0]["content"])

维护者

  • daichira
搜集汇总
数据集介绍
main_image_url
构建方式
在数据科学领域,结构化数据的转换与提取任务对模型能力提出较高要求。AppliedCourse_SFT_datasets的构建过程依托多个公开数据源,如OpenFoodFacts产品数据库与Shopify产品目录,从中筛选安全且非敏感的数据列进行任务化处理。通过轻度的规范化与格式调整,将原始数据转化为符合指令微调需求的样本,每个样本均遵循OpenAI messages格式,并严格规定了输出必须符合指定的结构化格式(如CSV、JSON或XML),从而确保数据在形式转换与信息提取任务中的一致性与可靠性。
使用方法
为有效利用本数据集进行监督微调,用户可通过Hugging Face的datasets库直接加载,指定相应配置以获取不同任务类型的数据。在模型训练过程中,应注重遵循数据源附带的许可协议,确保合规使用。数据集适用于结构化输出任务的模型训练、学术教学以及格式鲁棒性评估,用户可依据任务需求选择合适配置,例如针对基础转换任务使用tabular配置,而对复杂场景则可调用hard_mixed配置以挑战模型极限。
背景与挑战
背景概述
在自然语言处理领域,指令微调技术旨在提升模型遵循结构化输出要求的能力。AppliedCourse_SFT_datasets作为一项专注于结构化数据转换与信息抽取任务的监督微调数据集,由研究者daichira于HuggingFace平台发布。该数据集依托多个公开上游数据源,如OpenFoodFacts与Shopify产品目录,通过精心设计的配置支持CSV、JSON、XML等格式间的转换任务。其核心研究问题聚焦于增强模型对复杂结构化输出的生成精确性与格式一致性,为教育场景与工业应用中的数据处理自动化提供了关键资源,推动了指令跟随模型在结构化任务中的实用化进程。
当前挑战
该数据集致力于解决结构化数据转换与信息抽取领域的核心挑战,包括处理异构数据格式间的语义对齐、维持输出严格遵循预定义模式,以及应对输入中存在的空值或结构不一致性。在构建过程中,挑战主要源于上游数据源的多样性与许可约束,需在遵守ODbL等开放许可的前提下,从非敏感列中合成安全且任务导向的样本。此外,设计兼顾教育性与高难度的混合任务时,需平衡样本的复杂性与模型学习的稳定性,确保对抗性案例不会损害泛化性能。
常用场景
经典使用场景
在自然语言处理领域,结构化数据转换与信息抽取是提升模型实用性的关键环节。AppliedCourse_SFT_datasets专为监督微调设计,其经典使用场景聚焦于训练语言模型执行格式转换任务,例如将CSV或XML数据精确转换为JSON格式,或从非结构化文本中提取关系信息并结构化输出。该数据集通过模拟真实世界的数据处理需求,使模型能够学习遵循严格的格式规范,从而在学术实验与工程实践中实现高效的数据互操作与整合。
解决学术问题
该数据集致力于解决自然语言生成研究中结构化输出的准确性与一致性难题。学术研究常面临模型在生成JSON、CSV等格式时出现语法错误或语义偏差的问题,本数据集通过提供高质量、规范化的训练样本,帮助研究者探索模型在复杂约束下的泛化能力。其意义在于为格式转换与信息抽取任务建立了可复现的基准,推动了指令微调技术在结构化输出领域的深入应用,为后续研究提供了可靠的数据支撑。
实际应用
在实际应用层面,AppliedCourse_SFT_datasets能够服务于多种需要自动化数据处理的场景。例如,在电子商务领域,模型可借助该数据集学习将产品目录的CSV文件转换为JSON格式,以适配不同的API接口;在公共交通系统中,GTFS风格的文本数据可被抽取为结构化JSON,便于行程规划与分析。这些应用显著提升了数据流水线的效率,减少了人工干预,为企业级的数据集成与管理系统提供了智能化解决方案。
数据集最近研究
最新研究方向
在自然语言处理领域,结构化数据转换与信息抽取任务正成为研究热点,AppliedCourse_SFT_datasets以其专注于CSV、JSON、XML等格式的严格输出规范,为模型在真实场景中的格式适应性提供了关键训练资源。前沿研究聚焦于提升大语言模型对复杂结构化指令的理解与生成能力,尤其在对抗性转换和多模态数据整合方面,该数据集通过hard_mixed配置模拟高难度任务,推动了模型在金融、电商等领域的自动化数据处理应用。相关热点事件如开源社区对数据合规性的重视,促使研究者更关注上游许可协议,确保技术创新的同时遵守伦理与法律边界,这进一步强化了数据集在促进负责任AI发展中的桥梁作用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作