dataforge-sft-trajectories
收藏Hugging Face2026-05-13 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/Praneshrajan15/dataforge-sft-trajectories
下载链接
链接失效反馈官方服务:
资源简介:
DataForge SFT Trajectories 是一个用于表格数据修复任务的小规模专家监督微调轨迹数据集。该数据集旨在为 DataForge Week 9 热启动模型提供训练数据,主要目的是验证从 Kaggle 到 Hugging Face 的训练流程,而非用于建立模型质量基准。数据集核心文件为 expert_v1.jsonl,其中包含可审计的、聊天风格的修复轨迹记录。每条 JSONL 记录包含丰富的字段信息:模式版本、轨迹ID、任务ID、源数据集名称、任务难度、随机种子、数据块索引、观察到的状态、教师消息、工具调用摘要、建议的修复方案、教师元数据、评估指标以及数据来源。数据来源于 DataForge-Bench-light 框架,覆盖了 Raha 的 Hospital、Flights 和 Beers 基准数据源。当前公开的版本仅包含从 Hospital 数据集的简单任务中收集的记录,这些记录由一个托管在 Groq 上的 llama-3.3-70b-versatile ReAct 教师模型生成,并在保留前经过了基于 F1 分数阈值的过滤。该数据集适用于以下场景:复现 DataForge 0.5B 模型的 SFT 热启动工作流程;审计提交给 Kaggle 笔记本的确切训练数据;在 DataForge 的验证器和事务假设下,训练或调试小型的表格数据修复智能体。需要注意的是,这是一个规模很小的数据集(记录数少于1000条),不应被视为广泛的数据清洗基准。教师模型的输出即使在过滤后也可能包含错误,且该数据集不能替代在独立评估集(如 dataforge-evals)上进行的确切单元格级真值对比。
DataForge SFT Trajectories is a small-scale expert supervised fine-tuning trajectories dataset for table data repair tasks. It is designed to provide training data for the DataForge Week 9 warm-start model, primarily to validate the training pipeline from Kaggle to Hugging Face, rather than to establish a model quality benchmark. The core file of the dataset is expert_v1.jsonl, which contains auditable, chat-style repair trajectory records. Each JSONL record includes rich field information: schema version, trajectory ID, task ID, source dataset name, task difficulty, random seed, data chunk index, observed state, teacher message, tool call summary, proposed fix, teacher metadata, evaluation metrics, and data provenance. The data is sourced from the DataForge-Bench-light framework, covering Rahas Hospital, Flights, and Beers benchmark data sources. The currently released version only includes records collected from simple tasks in the Hospital dataset, generated by a llama-3.3-70b-versatile ReAct teacher model hosted on Groq, and filtered based on an F1 score threshold before retention. The dataset is suitable for the following scenarios: reproducing the SFT warm-start workflow for the DataForge 0.5B model; auditing the exact training data submitted to Kaggle notebooks; training or debugging small table data repair agents under DataForges validator and transaction assumptions. It should be noted that this is a very small dataset (with fewer than 1000 records) and should not be considered a broad data cleaning benchmark. The teacher models output may contain errors even after filtering, and this dataset cannot replace exact cell-level truth comparisons on independent evaluation sets such as dataforge-evals.
创建时间:
2026-05-11
搜集汇总
数据集介绍

构建方式
该数据集基于DataForge Week 9 warmup模型构建,专注于专家级别的有监督微调轨迹。构建过程从分割后的脏/净CSV差异(oracle_from_clean_diff)出发,确保模型训练锚定于经过审计的标签,而非教师模型的猜测。数据记录由确定的训练行生成,涵盖Raha Hospital、Flights和Beers三个基准数据集。留出行在分块前即被选定,并从目标行、上下文行、归一化候选、修复方案及消息中排除。Flights数据集的标签来自脏/净标签的监督,日程与实时修复被标记为oracle_from_clean_diff。每个JSONL行包含schema版本、轨迹ID、任务ID、数据集、难度、种子、块索引、观察状态、聊天消息、工具调用摘要、建议修复、教师/预言机元数据、评估指标、拆分元数据及来源溯源。无脏/净差异的块作为硬负样本finish示例保留。
特点
该数据集的核心特点在于其可审计性和确定性。所有记录均源自确定的训练行,包含行ID和脏行SHA-256哈希值的拆分清单确保了数据的可追溯性,而不包含干净标签或修复目标。数据集的构建强调与审计标签的锚定,避免了依赖教师模型猜测带来的不确定性。此外,数据集保留了无差异的硬负样本,用于训练模型仅在脏行证明需要精确替换时才执行修复,这与评估时的推理约定一致。数据集还提供了完整的元数据,包括轨迹ID、任务信息、工具调用及评估指标等,便于进行细粒度的模型行为分析。总体而言,该数据集专注于表格数据修复的监督微调,而非一般性的数据清理基准。
使用方法
使用该数据集时,可将其用于复现DataForge 0.5B SFT warmup工作流,或审计实际输入Kaggle笔记本的精确数据。数据集适用于训练或调试在DataForge验证器和事务假设下的小型表格修复代理。用户可通过加载expert_v1.jsonl文件获取完整的修复轨迹,利用split_manifest.json确定训练/评估的拆分依据。建议结合dataforge-evals工具进行模型输出与精确单元格级别的真实标签对比,以评估模型性能。需要注意的是,该数据集为监督训练数据集,不可作为通用的数据清理竞赛或宽泛的数据清理基准使用,且遗留的教师模型输出即使经过过滤仍可能包含错误,因此应谨慎依赖其结果进行质量声明。
背景与挑战
背景概述
DataForge SFT Trajectories数据集由DataForge团队于2024年创建,旨在为小规模表格数据修复代理提供监督微调轨迹。该数据集聚焦于解决数据质量领域的核心研究问题:如何通过专家级修复轨迹教导模型在审计标签基础上执行精确的单元格级修复。基于Raha Hospital、Flights和Beers等基准数据源,数据集通过确定性训练行生成记录,并采用分块级别的专家轨迹(expert_v1)以及干净/脏差异的oracle标注,确保模型训练锚定于已验证标签。其影响力体现在为韩式数据修复工作流提供了可复现的训练基准,避免了依赖单一模型输出,推动了数据质量自动化领域的标准化进展。
当前挑战
该数据集所解决的领域挑战在于表格数据修复的可靠性与泛化性,即模型需学习在仅根据脏行差异判断何时修复、何时放弃(hard-negative示例),而非盲目覆盖所有数据。构建过程面临双重挑战:其一,轨迹生成需确保Flights等数据源的时间表修复严格来自干净/脏标签的oracle差异,排除Groq等第三方API推断的不确定性;其二,历史遗留的llm_react_chunk记录可能包含教师模型错误,需在数据筛选后保留审计线索但避免干扰精确标签。此外,数据集规模较小(1K-10K行),限制了其在广泛数据清洗任务上的泛化能力,强调其仅适用于特定工作流下的调试与复现。
常用场景
经典使用场景
在智能数据清洗与修复领域,DataForge SFT Trajectories 数据集被设计为一种细粒度的监督式微调资源,专注于指导语言模型掌握基于专家轨迹(expert trajectories)的表格数据修复能力。其经典使用场景是作为小规模(0.5B参数)语言模型微调的工作流基础,模型通过学习由人工审计的脏数据与干净标签之间的对比差异(dirty/clean CSV diffs),学会在给定观测状态和上下文信息时,生成精准的单元格级修复建议。该数据集包含硬负样本(hard-negative examples),即无脏数据差异的块会被标记为“finish”,教导模型避免在无需修复的场景下进行无谓的操作,从而强化其推理纪律。这种设计使得该数据集成为训练轻量级、可审计的表格数据修复代理的理想工具。
实际应用
在实际工业场景中,该数据集训练出的模型可直接部署于数据管道中的质量监控环节,自动识别并修复结构化的脏数据,例如航空公司航班表中的时间错乱记录、医院患者信息中的格式错误或啤酒评测数据中的异常值。由于模型经过硬负样本训练,它能够精准区分需要修复和无需干预的数据行,避免过度修复带来的信息失真。企业数据工程团队可以将该模型集成至ETL流程或数据治理平台中,作为轻量级的预处理模块,显著降低人工审核成本。此外,模型输出附带轨迹来源元数据(如任务ID、工具调用摘要、教师模型日志),便于事后审计与回滚,满足了金融、医疗等强监管行业的数据溯源需求。
衍生相关工作
DataForge SFT Trajectories 的出现催生了若干衍生研究方向。其一,基于其专家轨迹的数据增强策略,研究者们开始探索如何将类似的审计式微调范式迁移至其他表格领域,如电商商品属性补全或科学实验数据标准化。其二,该数据集内置的确定性分割与哈希校验机制为“可复现数据分割”提供了参考模板,后续工作如dataforge-evals基准测试直接继承其评估协议,专门用于对比模型输出与单元格级真实值(cell-level ground truth)之间的偏差。其三,硬负样本的设计理念被进一步泛化,应用于更广泛的语义解析任务,教导模型在输入与期望输出完全一致时主动终止推理,从而优化推理效率。这些衍生工作共同构建了一个围绕数据质量审计的生态系统,持续推动着自动化数据修复技术的边界。
以上内容由遇见数据集搜集并总结生成



