labs-aibusiness/reasoning-distill-opus-4-7-max-sft
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/labs-aibusiness/reasoning-distill-opus-4-7-max-sft
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含7,823个单轮推理对话,这些对话来自Claude Opus 4.7模型,并重新格式化为适用于监督微调(SFT)的格式。每个对话都是一个完整的Qwen风格聊天模板对话,包含一个text字段。数据集的每个助手响应(包括<think>...</think>块)都是由Claude Opus 4.7模型生成的,且启用了Anthropic的extended-thinking功能。数据集适用于文本生成任务,大小为1K<n<10K,训练集包含7,823个示例,总大小为29,328,233字节。数据集格式为Qwen聊天模板,可直接用于`SFTTrainer`训练。
This dataset contains 7,823 single-turn reasoning conversations from Claude Opus 4.7 reformatted for supervised fine-tuning (SFT). Each row is a single text field containing a full Qwen-style chat-template conversation. The assistant responses (including the <think>...</think> block) are generated by Claude Opus 4.7 with Anthropics extended-thinking enabled. The dataset is suitable for text-generation tasks, with a size category of 1K<n<10K. The training split includes 7,823 examples, totaling 29,328,233 bytes. The dataset is formatted in Qwen chat template and is ready for use with `SFTTrainer`.
提供机构:
labs-aibusiness
搜集汇总
数据集介绍

构建方式
本数据集以Claude Opus 4.7为教师模型,通过思维链蒸馏技术构建。原始语料来源于先前版本的推理数据集,并利用Anthropic官方API启用扩展思考模式,生成包含<think>...</think>思考块的完整助手回答。对原始8,124条记录进行过滤,剔除因停止原因异常或思考/回答内容为空的条目,最终保留7,823条高质量的单轮推理对话。每条数据均采用Qwen聊天模板格式化为单一文本字段,包含系统提示、用户输入及带有思考过程的助手输出,可直接用于监督式微调。
特点
该数据集的核心特色在于其高质量的推理轨迹,每个助手回答均嵌入了Claude Opus 4.7的扩展思考过程,平均每个样本约4,000个token,长尾推理链可延伸至32,000个token。数据格式专为trl库的SFTTrainer及train_on_responses_only策略优化,损失仅作用于助手回答部分,包括思考标记,有效屏蔽用户和系统侧的梯度更新。此外,数据集采用Apache 2.0许可证,确保了广泛的可访问性与合规性。
使用方法
使用该数据集时,可直接将其传递给SFTTrainer,并指定dataset_text_field='text'参数来加载文本字段。训练时启用train_on_responses_only功能,使得模型仅从助手回答中学习,包含思考过程与最终答案,而系统提示和用户输入部分不参与损失计算。基于此数据集训练的Qwen3.6-35B-A3B模型采用注意力LoRA方法,在GSM8K和MMLU-Pro上分别取得了84.3%和74.9%的优异成绩,证明了该数据集在推理蒸馏任务中的有效性。
背景与挑战
背景概述
在大型语言模型快速演进的浪潮中,推理能力的增强始终是研究前沿的核心命题。基于此背景,该数据集于2024年由研究者lordx64主导构建,旨在通过知识蒸馏技术,将Claude Opus 4.7强模型中的链式思维推理能力迁移至更小、更高效的模型。数据集精心整合了7,823条单轮推理对话,每条数据均源自Claude Opus 4.7启用扩展思维功能后的完整输出,并采用Qwen聊天模板格式化,专用于有监督微调。该数据集的出现为推理蒸馏领域提供了高质量、标准化的训练资源,其衍生的Qwen3.6-35B模型在GSM8K和MMLU-Pro等基准测试中表现优异,展现了显著的影响力。
当前挑战
该数据集所应对的领域挑战主要在于如何高效地获取并利用强模型的推理过程,以提升轻量级模型的复杂逻辑推理与多步思考能力。当前许多模型虽能生成答案,却缺乏透明、可溯的推理轨迹,而该数据集通过蒸馏扩展思维链,旨在弥合这一鸿沟。在数据集构建过程中,挑战亦不容小觑:原始获取的8,124条数据中,因终止原因不匹配或思考响应文本为空而丢弃了301条,凸显了输出质量与一致性控制的难度。此外,数据序列平均约4,000个token,最长可达32,000个token,对存储与训练效率提出了严峻考验,需要精细的格式转换与资源调度才能保证数据集的可用性与代表性。
常用场景
经典使用场景
在当今大语言模型推理能力急剧演进的浪潮中,思维链(Chain-of-Thought)微调数据的稀缺性成为制约模型发展的关键瓶颈。该数据集以Claude Opus 4.7的强推理能力为基石,通过将7,823条包含显式思考过程(以<think>标记封装)和最终回答的单轮对话数据,重构为适配Qwen对话模板的监督微调格式。研究者可借助trl库中的SFTTrainer,配合train_on_responses_only策略,直接利用此数据对基础语言模型进行指令微调,使模型在生成过程中模仿Opus 4.7的推理轨迹,进而内化其结构化的逻辑推演能力。这一场景尤为适合需要提升模型数学推理、逻辑解析与复杂问题分解能力的实验,为蒸馏大模型推理技能提供了标准化、高效的训练原料。
解决学术问题
学术研究领域长期面临一个核心困局:如何将顶级闭源模型的深层推理机制有效迁移至开源、轻量化模型之上,同时保留其思维链的理性光芒。该数据集从方法论层面突破了知识蒸馏中“教学信号不透明”的壁垒,使研究者能够直接获取Claude Opus 4.7在执行复杂任务时完整的长链思考过程(最长可达32k token),而非仅仅窥见其最终答案。这一特性使得诸如推理能力泛化性分析、模型思维模式可视化、以及知识蒸馏中思考深度与模型容量映射关系等命题成为可能。此外,数据集对原始推理链条的忠实记录,为理解先进模型在数学(如GSM8K)、多任务推理(如MMLU-Pro)等场景中的内在逻辑提供了难得的微观素材,推动了可解释性与模型压缩两个方向的交叉融合。
衍生相关工作
该数据集的发布催生了一系列具有代表性的衍生工作,其中最引人瞩目的成果当属基于其微调获得的lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled模型。该模型通过注意力LoRA(秩为16)训练两个周期,实现了在GSM8K与MMLU-Pro上的显著提升,成为推理蒸馏课题中的标杆性实践。此开创性工作为后续研究者开辟了两条清晰路径:其一,探索不同蒸馏策略(如思考链长度截断、多样性核采样)对模型推理迁移效率的影响;其二,延伸至多语言推理场景,检验Opus 4.7的思考框架在非英文语境下的适应性与鲁棒性。数据集的Apache-2.0许可协议也为基于其构建更大规模合成数据管道、开发针对特定领域(如医疗诊断或法律论证)的推理增强工具提供了宽松的法律基础。
以上内容由遇见数据集搜集并总结生成



