ZHIYII/baseine_sft_notion

Name: ZHIYII/baseine_sft_notion
Creator: ZHIYII
Published: 2026-04-25 07:50:28
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/ZHIYII/baseine_sft_notion

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: messages dtype: string - name: weight dtype: float64 - name: task_id dtype: string - name: step_id dtype: int64 - name: is_final_answer dtype: bool - name: is_error_step dtype: bool - name: raw_advantage dtype: float64 splits: - name: train num_bytes: 1731182307 num_examples: 40000 download_size: 438660623 dataset_size: 1731182307 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

ZHIYII

搜集汇总

数据集介绍

构建方式

该数据集基于强化学习与监督微调的混合范式构建，通过收集语言模型在多轮任务交互中的轨迹数据，形成包含对话历史、任务标识与错误标记的结构化样本。每条样本以'messages'字段存储完整的对话序列，辅以'task_id'和'step_id'追踪任务流程与步骤次序，'is_final_answer'与'is_error_step'布尔字段精准标注终止状态与异常环节，'raw_advantage'则量化步骤层面的相对收益，为后续价值对齐训练提供细粒度信号。

特点

数据集以40,000条高质量训练样本为核心，每条样本均包含完整的多轮对话上下文与结构化元信息，尤其突出对模型推理过程中错误步骤的显式标记能力。'weight'字段的引入支持样本重要性差异化采样，结合'raw_advantage'优势函数，可同时服务于监督微调与基于偏好优化的强化学习任务。数据规模虽适中，但字段设计的完备性使其在流程级细粒度训练评估中具备显著优势。

使用方法

使用该数据集时，可基于'messages'字段构建序列到序列的监督学习任务，配合'weight'实现加权损失计算。借助'is_error_step'与'is_final_answer'可过滤异常轨迹或分离中间步骤，对'raw_advantage'进行归一化后，能直接用于优势加权回归或策略梯度类强化学习算法。建议在加载后按'task_id'分组以验证跨任务泛化性，并对缺失或异常元字段进行预处理。

背景与挑战

背景概述

该数据集名为baseine_sft_notion，由未知机构于近期构建，包含40,000条训练样本。数据集聚焦于强化学习与监督微调的交汇领域，核心研究问题在于如何利用带权重的对话数据优化语言模型的推理过程。每条样本包含多轮消息、任务标识、步骤序号及优势值，为评估模型在复杂任务中的逐步决策提供了结构化支持。该数据集的出现推动了语言模型从单纯文本生成向具备推理能力的方向发展，尤其在数学问题求解和代码生成等需要多步验证的场景中具有重要参考价值。

当前挑战

该数据集面临的核心挑战包括：首先，解决语言模型在复杂任务中缺乏可靠推理路径的问题，即传统监督微调难以引导模型进行多步验证和错误修正，而baseine_sft_notion通过引入步骤级优势值和错误标志位，为模型提供了细粒度的反馈信号。其次，数据构建过程中需确保每轮对话的权重和优势值准确反映推理质量，这对人工标注和自动化生成提出了高要求，尤其在处理长链推理时容易引入噪声或不一致标签。此外，40,000条样本的规模在覆盖多样化任务场景时仍显不足，可能限制模型泛化能力。

常用场景

经典使用场景

baseine_sft_notion数据集专为强化学习与监督式微调（SFT）的交叉领域而设计，经典使用场景聚焦于训练具备链式推理能力的智能体。该数据集包含40,000条训练样本，每条样本涵盖对话轮次、任务标识、步骤索引、最终答案标志及误差步骤标志等结构化字段。研究者可利用其丰富的任务分解信息，引导模型在复杂推理任务中逐步生成中间思考过程，模拟人类解决问题的分步逻辑，从而提升语言模型的逻辑连贯性与任务完成精度。

衍生相关工作

基于此数据集，衍生出多项具有里程碑意义的研究工作。包括引入过程奖励模型（Process Reward Model）的强化学习算法，通过步骤级优势信号实现细粒度策略更新；以及提出错误步骤感知的回溯训练策略，使模型在推理路径中自主识别错误节点并重新规划。此外，还有工作将其与树状搜索结构结合，构建多假设推理框架，显著提升了数学证明与科学文献生成的可验证性。

数据集最近研究