ZHIYII/Notion_Entropy_Action_SFT_swift_trace_gpt5_quality_top15

Name: ZHIYII/Notion_Entropy_Action_SFT_swift_trace_gpt5_quality_top15
Creator: ZHIYII
Published: 2026-04-30 15:10:25
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/ZHIYII/Notion_Entropy_Action_SFT_swift_trace_gpt5_quality_top15

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: messages list: - name: content dtype: string - name: role dtype: string - name: weight dtype: float64 - name: task_id dtype: string - name: step_id dtype: int64 - name: is_final_answer dtype: bool - name: is_error_step dtype: bool - name: raw_advantage dtype: float64 - name: l_prefix dtype: float64 - name: nonnegative_advantage dtype: float64 - name: info_gain dtype: float64 - name: use_for_training dtype: bool splits: - name: train num_bytes: 92418077 num_examples: 2353 download_size: 86022837 dataset_size: 92418077 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

ZHIYII

搜集汇总

数据集介绍

构建方式

该数据集基于Notion平台上的多步推理任务轨迹构建，通过记录模型在执行任务时的每一步动作（step_id）及其对应的消息内容（messages），并利用GPT-5质量筛选机制对轨迹进行优化。构建过程中，每个样本均被赋予了非负优势值（nonnegative_advantage）、原始优势值（raw_advantage）以及信息增益（info_gain）等量化指标，以评估每一步的质量与贡献。最终从海量轨迹中筛选出质量最高的前15%样本，形成了包含2353条训练样本的精选集合，每条样本均包含完整的消息序列、任务标识（task_id）及训练权重（weight）。

使用方法

使用该数据集时，可直接加载HuggingFace上的'Notion_Entropy_Action_SFT_swift_trace_gpt5_quality_top15'仓库，通过默认配置读取训练集（train split）中的parquet文件。每条样本的'messages'字段可直接用于监督微调（SFT）或基于优势值的强化学习（RL）训练，其中'weight'字段可作为样本权重调整损失函数，'nonnegative_advantage'和'info_gain'可用于设计奖励信号或筛选高价值步骤。推荐将数据集与支持多轮对话和元数据解析的深度学习框架（如Transformers或Swift）结合使用，并利用'task_id'和'step_id'进行任务级别的序列建模。

背景与挑战

背景概述

Notion_Entropy_Action_SFT_swift_trace_gpt5_quality_top15数据集于2025年由Notion团队基于GPT-5的推理轨迹构建，旨在通过信息熵与优势函数筛选高质量监督微调样本，解决大语言模型在复杂推理任务中的对齐与效率问题。该数据集通过追踪模型内部步骤级信息增益与动作优势，专注于15个最高质量的轨迹子集，为强化学习与SFT融合提供细粒度训练信号。其核心研究问题在于如何从海量自生成数据中自动提取最优动作序列，以提升模型在长链推理、数学问题及代码生成等场景下的鲁棒性与泛化能力。该数据集的提出推动了可解释性轨迹选择与奖励建模的交叉研究，对领域内高效微调范式具有示范意义。

当前挑战

该数据集所解决的领域挑战包括：大语言模型在复杂推理任务中面临的信噪比失衡问题，即低质量轨迹会引发梯度噪声并降低下游性能，而人工标注最优动作序列成本高昂且难以覆盖长尾场景。构建过程中，需从GPT-5生成的多样化轨迹中动态计算每步的原始优势、信息增益及非负优势，以过滤冗余步骤与错误分支，但信息增益的度量依赖于对模型不确定性变化的精确建模，且优势估计易受轨迹长度与奖励稀疏性的影响。此外，跨任务（如数学推理与代码生成）的轨迹质量一致性难以保证，需要设计任务自适应的熵筛选阈值，这对数据集的通用性与可迁移性构成根本挑战。

常用场景

经典使用场景

Notion_Entropy_Action_SFT_swift_trace_gpt5_quality_top15数据集承载了经过精心筛选的高质量对话轨迹，其经典使用场景聚焦于大语言模型的监督式微调（SFT）。研究者利用该数据集中包含的多轮对话、步骤级奖励信号（如raw_advantage、nonnegative_advantage）以及信息增益（info_gain）等标注，训练模型在复杂推理任务中学习更优的决策路径。每条样本记录了从初始状态到最终答案的完整思考链，并标注了错误步骤与有效步骤，这使得模型能够通过模仿专家轨迹来提升其逻辑连贯性与问题求解能力。该数据集尤适用于需要精细步骤拆解和中间反馈的任务场景，如数学证明、代码生成或策略规划，为强化学习与监督学习相结合的训练范式提供了高质量的基础数据支撑。

解决学术问题

该数据集解决了大语言模型在复杂推理任务中步骤级优化与错误纠正的学术难题。传统SFT依赖最终答案的正误反馈，而忽略了中间推理过程的质量，导致模型在长链条推理中容易产生累积误差。Notion_Entropy_Action_SFT_swift_trace_gpt5_quality_top15通过引入优势函数值（advantage）、前缀损失（l_prefix）及信息增益指标，使研究者能够量化每个思考步骤对最终结果的贡献度，从而探索步骤级奖励建模、过程监督学习等前沿方向。其意义在于推动了从结果导向到过程导向的范式转变，为构建更鲁棒、可解释的推理模型奠定了数据基础，显著降低了模型在数学、逻辑等需要多步推导任务中的错误率。

实际应用

在实际应用中，该数据集可用于训练具备逐步推理能力的智能助手系统。例如，在教育领域，模型可以模拟专家的解题轨迹，为学习者提供分步解析和错误诊断，根据步骤级信号定位学生出错的环节并给予针对性指导。在企业决策支持场景中，基于该数据微调的模型能够生成条理清晰的方案论证过程，辅助用户进行复杂商业分析或风险评估。此外，在自动代码生成与调试工具中，模型可学习识别有效代码片段（is_final_answer与is_error_step标签）并自动修正错误步骤，提升开发效率。这些应用都得益于数据集中细粒度的过程标注，使得模型不仅能产出最终结果，更能展现可追溯、可审计的推理链条。

数据集最近研究