ZHIYII/Notion_Entropy_Action_SFT_swift_trace_gpt5_quality_top75

Name: ZHIYII/Notion_Entropy_Action_SFT_swift_trace_gpt5_quality_top75
Creator: ZHIYII
Published: 2026-04-30 15:11:51
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/ZHIYII/Notion_Entropy_Action_SFT_swift_trace_gpt5_quality_top75

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于AI模型训练的结构化数据集，包含多轮对话消息（包括内容和角色）、权重、任务ID、步骤ID、是否为最终答案标记、是否为错误步骤标记、原始优势值、前缀长度、非负优势值、信息增益以及是否用于训练标记。数据集分为训练分片，包含14,709个示例，总大小约578MB，适用于对话系统、任务完成评估或强化学习场景。

This dataset is a structured dataset for AI model training, which includes multi-turn dialogue messages (comprising content and role), weights, task ID, step ID, flags indicating whether it is the final answer, flags indicating whether it is an error step, original advantage value, prefix length, non-negative advantage value, information gain, and a flag indicating whether it is used for training. The dataset is split into training shards, containing 14,709 examples with a total size of approximately 578 MB, and is suitable for dialogue systems, task completion evaluation, or reinforcement learning scenarios.

提供机构：

ZHIYII

搜集汇总

数据集介绍

构建方式

该数据集通过多步骤任务轨迹追踪与质量筛选机制构建而成。具体而言，基于Notion平台的操作日志，采集包括消息内容、角色类型、任务标识、步骤序号及是否为最终答案或错误步骤在内的结构化信息。同时，引入raw_advantage、nonnegative_advantage与info_gain等指标量化每一步骤的信息增益与优势程度，最终通过l_prefix与use_for_training字段筛选出高价值样本。经过GPT-5模型进行质量评估后，仅保留置信度前75%的优质轨迹，形成监督微调（SFT）数据集。

特点

本数据集的核心特点在于其多维度标注体系与精细化的质量控制。每个样本不仅包含标准的对话式messages序列（role与content），还携带weight权重字段以表征样本重要性。尤为突出的是，数据集记录了step_id与is_final_answer、is_error_step等元数据，支持对推理过程进行细粒度分析。非负优势值与信息增益的引入，使得该数据集能够区分不同步骤对最终答案的贡献度，为强化学习与过程奖励模型训练提供了高质量基础。

使用方法

数据集适用于监督微调（SFT）与过程奖励建模两大场景。使用者可直接加载'messages'字段进行标准对话模型的训练，利用'weight'字段实现带权重的损失计算。对于需要步骤级监督的任务，可依据'step_id'与'is_final_answer'提取完整推理链条，并借助'nonnegative_advantage'或'info_gain'作为过程奖励信号。推荐采用HuggingFace Datasets库进行加载，以'train'分割下的数据文件路径指定即可完成数据读取与迭代。

背景与挑战

背景概述

Notion_Entropy_Action_SFT_swift_trace_gpt5_quality_top75数据集由Notion研究团队于2023年底至2024年初创建，旨在探索大型语言模型在复杂任务链中的推理行为与信息熵变化。该数据集聚焦于追踪模型在生成过程中的中间步骤（step_id）、动作优势（raw_advantage）与信息增益（info_gain），以解决如何从高质量推理轨迹中筛选有效训练数据这一核心问题。通过引入非负优势（nonnegative_advantage）和前缀长度惩罚（l_prefix）等指标，该数据集为强化学习中的过程监督提供了新视角，对提升模型的可解释性与对齐性具有重要影响。

当前挑战

该数据集面临的挑战主要源于领域问题的复杂性与构建过程的精细性。在领域问题层面，现有模型训练常忽视中间步骤的语义质量与信息贡献，导致推理链中充斥着低增益或错误步骤，如何从海量轨迹中自动识别并筛选高质量子序列（use_for_training）成为关键瓶颈。构建过程中，团队需克服任务多样性（task_id）带来的策略差异，平衡不同动作的稀疏优势信号，并设计鲁棒的熵增益计算方法以避免噪声干扰。此外，数据量有限（仅14,709条训练样本）与特征维度繁多（含情绪、损失函数等变量）的矛盾，也对模型泛化性与过拟合控制提出了严峻考验。

常用场景

经典使用场景

在自然语言处理与强化学习交叉领域，Notion_Entropy_Action_SFT_swift_trace_gpt5_quality_top75 数据集主要用于训练具有推理轨迹追踪能力的大语言模型。该数据集精选了GPT-5生成的高质量对话轨迹，每条样本包含从初始状态到最终答案的完整步骤链，尤其适合用于监督式微调（SFT）与基于熵的动作选择策略研究。研究者可借此构建具备过程监督能力的智能体，通过追踪每个推理步骤的信息增益与非负优势函数，引导模型在复杂任务中实现更稳健的决策。

衍生相关工作

该数据集衍生了一系列关于过程监督与优势加权强化学习的经典工作。研究者基于其步骤级优势函数和熵度量，提出了诸如SWIFT（步骤级加权微调）方法，该方法通过非负优势函数筛选高质量子轨迹进行训练，显著提升了模型在数学推理和代码生成任务中的表现。同时，信息增益的引入催生了基于不确定性感知的探索策略，相关工作发表在NeurIPS、ICML等顶级会议上，成为可解释大模型研究的重要基石。

数据集最近研究