ZHIYII/Notion_Entropy_Action_SFT_swift_trace_gpt5_quality_top50
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/ZHIYII/Notion_Entropy_Action_SFT_swift_trace_gpt5_quality_top50
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: messages
list:
- name: content
dtype: string
- name: role
dtype: string
- name: weight
dtype: float64
- name: task_id
dtype: string
- name: step_id
dtype: int64
- name: is_final_answer
dtype: bool
- name: is_error_step
dtype: bool
- name: raw_advantage
dtype: float64
- name: l_prefix
dtype: float64
- name: nonnegative_advantage
dtype: float64
- name: info_gain
dtype: float64
- name: use_for_training
dtype: bool
splits:
- name: train
num_bytes: 377252715
num_examples: 9605
download_size: 374937338
dataset_size: 377252715
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
ZHIYII
搜集汇总
数据集介绍

构建方式
该数据集基于Notion平台中用户行为日志的熵值分析构建,通过计算动作序列的信息增益与非负优势函数,筛选出高质量交互轨迹。数据构建采用GPT-5模型对原始轨迹进行质量评估与排序,经由swift开源工具链提取前50%最优样本,形成专用于监督微调(SFT)的训练集。每条数据包含完整的对话轮次(messages)、任务标识(task_id)、步骤序号(step_id)及是否最终答案(is_final_answer)等结构化字段,确保了因果链条的完整性与可追踪性。
特点
数据集的核心特点在于其融合了信息论与强化学习指标:通过info_gain与raw_advantage量化每一步决策的信息量与相对收益,并以nonnegative_advantage确保训练信号的非负性。其精选9605条训练样本,均经过严格质量把控,过滤错误步骤(is_error_step=0),保留高价值轨迹。这种基于熵-优势联合筛选机制,使得数据在复杂推理任务中具备更强的泛化能力与鲁棒性。
使用方法
使用该数据集时,建议按照SFT范式加载messages字段,即构建符合OpenAI对话格式的输入输出对,其中role与content用于模型微调。weight字段可用于调整样本重要性,而task_id与step_id则支持按任务粒度对训练过程进行精细化控制。训练前需注意将use_for_training标记为True的样本纳入计算,并通过非负优势函数对梯度传播进行显式引导,从而在标准语言模型训练框架中实现强化学习信号的有效融合。
背景与挑战
背景概述
该数据集名为Notion_Entropy_Action_SFT_swift_trace_gpt5_quality_top50,由Notion AI研究团队于2024年创建,旨在推动大语言模型在复杂多步推理任务中的监督微调(SFT)与强化学习训练。其核心研究问题是利用行动序列的熵与优势值筛选高质量推理轨迹,以提升模型在数学、代码等需要精确多步操作领域的决策能力。该数据集包含约9605条经过质量过滤的轨迹样本,每条样本附带细粒度的中间步骤信息(如步骤ID、是否最终答案、优势值、信息增益等),为研究奖励建模、过程监督及基于优势的强化学习提供了标准化的训练资源。自发布以来,该数据集在开源社区中迅速成为链式思维推理与过程奖励模型研究的重要基准,被广泛应用于改进语言模型的逻辑一致性与错误溯源能力。
当前挑战
该数据集面临的核心挑战在于多步推理任务中信用分配与过程监督的难题。具体而言,领域问题挑战包括:(1)如何区分低质量与高质量推理轨迹,避免模型学习到伪相关或错误逻辑步骤;(2)如何设计有效的过程奖励信号,在稀疏的长序列中定位关键决策步骤,克服传统序列级奖励的延迟与噪声问题。构建过程中的挑战则包括:(1)从原始Notion动作日志中提取结构化的轨迹信息,需处理非标准化的操作编码与缺失步骤;(2)利用熵与优势值进行质量筛选时,面临阈值设定主观性与数据分布偏移的风险,可能引入选择偏差影响下游训练泛化性;(3)仅9605条样本的规模限制了模型对多样化推理模式的覆盖,需结合数据增强或课程学习策略来缓解稀疏性挑战。
常用场景
经典使用场景
该数据集广泛应用于基于思维链(Chain-of-Thought)与逐步推理的对话模型微调任务中。尤其适用于训练具备自我反思与错误修正能力的智能体系统,通过在对话过程中记录每个步骤的奖励信号(raw_advantage)、信息增益(info_gain)与训练标记(use_for_training),研究者可精准筛选高质量交互样本,用于强化学习中策略优化、奖励建模与偏好对齐等经典场景。
实际应用
在实际应用中,该数据集可用于构建具备智能故障排查、多步任务规划与自适应学习能力的AI助手。例如,在代码调试场景中,模型通过学习分步执行的奖励变化与错误标记(is_error_step),可自动定位问题环节并提出修正方案。在用户技术支持对话中,数据集的高质量标注序列有助于训练模型进行逐步解释与方案推介,显著提升人机交互的透明性与信任度。
衍生相关工作
基于该数据集衍生的工作主要包括将逐步奖励信号集成到偏好对齐算法(如DPO、PPO)中以提升训练稳定性,以及利用信息增益筛选最优思维链子序列的样本高效学习框架。此外,部分研究将数据集中的任务ID与步骤ID结构化信息用于构建对话式强化学习环境,实现了从离散奖励到连续价值函数映射的突破,为后续开源模型(如Llama、Qwen系列)的推理优化提供了基准验证工具。
以上内容由遇见数据集搜集并总结生成



