ansulev/reasoning-distill-opus-4-7-max-sft

Name: ansulev/reasoning-distill-opus-4-7-max-sft
Creator: ansulev
Published: 2026-04-24 23:34:53
License: 暂无描述

Hugging Face2026-04-24 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/ansulev/reasoning-distill-opus-4-7-max-sft

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含7,823个单轮推理对话，这些对话来自Claude Opus 4.7，并经过重新格式化，适用于监督微调。每个对话都包含完整的Qwen风格聊天模板对话，格式为单一的`text`字段。所有对话的助手响应（包括`<think>...</think>`块）均来自Claude Opus 4.7，并启用了Anthropic的`extended-thinking`功能。数据集适用于训练模型，特别是用于推理和思维链任务。

This dataset contains 7,823 single-turn reasoning conversations from Claude Opus 4.7, reformatted for supervised fine-tuning. Each row is a single `text` field containing a full Qwen-style chat-template conversation. Every conversations assistant response (including the `<think>...</think>` block) is output from Claude Opus 4.7 with Anthropics `extended-thinking` enabled. The dataset is suitable for training models, especially for reasoning and chain-of-thought tasks.

提供机构：

ansulev

搜集汇总

数据集介绍

构建方式

该数据集源自对Anthropic公司高性能推理模型Claude Opus 4.7的蒸馏过程，旨在为监督式微调提供高质量的推理轨迹数据。构建时，研究团队利用Anthropic官方API启用了Claude Opus 4.7的扩展思维（extended-thinking）功能，使其在生成最终回答前输出一段包含完整推理过程的<think>...</think>区块。随后，系统将包含系统提示、用户问题、模型推理链及最终回答在内的多轮对话内容，统一转换为Qwen聊天模板格式，并封装为单一的text字段，以便直接用于trl库中的SFTTrainer进行训练。在格式化过程中，团队对原始8,124条记录进行了清洗，剔除了因停止原因非end_turn或推理/回答为空的行，最终保留7,823条高质量单轮推理对话。

特点

该数据集最显著的特点在于其每一行均包含来自当前最前沿推理模型Claude Opus 4.7的完整思维链，模型在生成答案前先经过深思熟虑的推导过程，这为训练小模型模仿长链推理提供了珍贵的学习范例。数据平均每条约含4,000个令牌（基于Qwen3分词器），其中最长的推理链可达32,000个令牌，展现了模型在面对复杂问题时进行深度思考的能力。此外，数据集已按照Qwen聊天模板进行预格式化，并特别设计了train_on_responses_only的掩码策略，使得梯度仅在助手回答部分（包括其思考令牌）流动，有效屏蔽了用户与系统侧的干扰，从而极大提升了监督式微调的效率与针对性。

使用方法

使用时，用户可直接将该数据集加载至Hugging Face的trl库中，通过SFTTrainer以dataset_text_field='text'的形式调用，无需额外的预处理步骤。推荐在训练过程中启用train_on_responses_only参数，以确保模型只从助手的推理与回答部分学习，而忽略用户提问与系统提示的影响。该数据集已成功应用于一个基于Qwen3.6-35B-A3B架构的注意力部分LoRA微调实验，采用秩为16的适配器，在单张H200 GPU上训练2个周期，初步评测结果显示在GSM8K上达到84.3%的准确率，在MMLU-Pro上达到74.9%，验证了该数据集在提升小模型推理能力方面的有效性与实用性。

背景与挑战

背景概述

在大型语言模型领域，推理能力的增强一直是核心研究焦点，其中链式思维推理与知识蒸馏技术的结合为提升模型表现提供了新路径。该数据集由研究者 lordx64 于近期创建，基于 Anthropic 的 Claude Opus 4.7 模型，通过启用扩展思维模式生成高质量推理轨迹，并采用 Qwen 对话模板进行监督微调格式化，旨在将前沿模型的推理能力迁移至更高效的小型模型。数据集共包含 7,823 条单轮推理对话，每条数据内嵌完整的思考过程与最终回答，为开源社区提供了可直接用于 SFTTrainer 训练的标准化资源。其衍生模型已在 GSM8K 和 MMLU-Pro 等基准上取得显著成绩，展现了对小模型推理能力提升的潜在推动力。

当前挑战

该数据集所解决的领域核心挑战在于，如何有效地将强大但封闭的专有模型的推理能力蒸馏至可开源部署的小型模型中，以突破小模型在复杂推理任务上的性能瓶颈。具体到构建过程，挑战包括：第一，确保从上游模型的思维链输出中提取高质量、无噪声的推理轨迹，原始 8,124 条数据中因中断或空内容被筛选丢弃了约 300 条，反映了数据清洗的严苛要求。第二，需要统一不同来源的对话格式并与目标训练框架兼容，例如将思维块与最终回答嵌入到 Qwen 模板中，同时确保损失函数仅作用于模型回复部分，这对数据预处理技术提出了精细要求。第三，推理长链的 token 平均长度约 4,000，最高可达 32,000，在有限计算资源下进行训练时，对内存管理和序列截断策略构成了显著挑战。

常用场景

经典使用场景

该数据集在自然语言处理领域中，专门用于对大型语言模型进行监督式微调（SFT），特别是增强模型的复杂推理能力。每条数据都包含了由Claude Opus 4.7生成的完整思维链（Chain-of-Thought），以<think>...</think>标记封装，精确模拟了从内部推理到最终应答的完整认知过程。研究者通常利用这一数据集，结合train_on_responses_only策略，在诸如Qwen3等基座模型上开展仅针对响应部分的梯度训练，从而在不干扰用户和系统提示的情况下，将高级推理模式高效地蒸馏至目标模型。其格式化后的Qwen对话模板，使得该数据集能够直接与trl.SFTTrainer等现代训练框架无缝衔接，极大降低了数据预处理的门槛。

衍生相关工作

该数据集源自lordx64/reasoning-distill-claude-opus-4-7-max原始语料，并经过精心格式化以适应SFT训练流程。以其为核心训练资源，已经衍生出如lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled这一代表性工作，该模型通过注意力LoRA（秩为16）在两轮训练后，在单一H200上实现了GSM8K 84.3%和MMLU-Pro 74.9%的初步评估表现，验证了该数据集在推理蒸馏中的效力。后续研究可围绕该数据集开展多轮蒸馏机制、推理链长度对性能的影响、以及跨模型架构的迁移泛化等方向的探索，为开源社区在推理模型领域的持续进步提供了扎实的起点和丰富的实验素材。

数据集最近研究