GSM8K-Teacher-CoT-120B

github2025-11-18 更新2025-11-26 收录

下载链接：

https://github.com/HAD653/gsm8k-cot-120b

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个高质量短链思维蒸馏数据集，包含约7200个样本，基于OpenAI gpt-oss-120b模型生成。数据集针对小学数学问题，采用简洁的思维链格式，无LaTeX、ChatML或标记语言，提供确定性的推理过程和标准化的最终答案。适用于小型推理模型的训练和蒸馏。

This is a high-quality short-chain thought distillation dataset consisting of approximately 7,200 samples generated by the OpenAI gpt-oss-120b model. Targeting primary school mathematics problems, this dataset adopts a concise chain-of-thought format, contains no LaTeX, ChatML or markup languages, and provides deterministic reasoning procedures and standardized final answers. It is suitable for training and distillation of small-scale reasoning models.

创建时间：

2025-11-18

原始信息汇总

GSM8K-Teacher-CoT-120B 数据集概述

数据集基本信息

数据集名称: GSM8K-Teacher-CoT-120B
发布日期: 2025年
文件格式: JSONL
数据文件: gsm8k_teacher_cot.jsonl
样本数量: 约7.2k（完整GSM8K训练集）
领域: 小学数学问题

数据集特征

教师模型: OpenAI — gpt-oss-120b
风格: 短链式思维，严格格式化
质量保证:
- 短结构化链式思维（1-6句话，确定性）
- 无格式化伪影（无LaTeX、无$...$、无markdown、无ChatML标签、无XML）
- 确定性输出（final_answer始终存在，始终为数字字符串）
- 教师模型可重现性

数据格式

每个JSON对象包含三个字段：

question: 原始GSM8K问题，纯文本
cot: 由120B教师生成的简短、简洁推理
final_answer: 包含最终数字答案的规范化字符串

预期用途

小型模型（0.5B–7B）的推理专业化
监督微调
从120B教师模型进行蒸馏
数学推理任务
紧凑链式思维格式研究

兼容性

Hugging Face datasets
Axolotl
OpenCompass
LigerTune / ReFT pipelines
任何使用JSONL输入的SFT训练器

免责声明

链式思维由LLM生成，非人工编写
GSM8K问题归原作者所有，仅包含模型生成的推理
链式思维不应视为已验证的数学内容，该数据集仅用于训练目的

搜集汇总

数据集介绍

构建方式

在数学推理领域的数据集构建中，GSM8K-Teacher-CoT-120B采用知识蒸馏技术，基于OpenAI的gpt-oss-120B大模型生成思维链标注。通过设定温度参数为0.2、top-p值为1.0的严格采样策略，配合限定最大生成长度为512个令牌的约束条件，确保生成过程具有高度确定性。原始GSM8K训练集中的数学问题经过规范化处理，剔除LaTeX公式和特殊标记，最终形成包含约7200条样本的纯净文本数据集，每条数据均包含问题描述、精简推理链和标准化数值答案三个核心要素。

使用方法

针对小型数学推理模型的训练需求，该数据集支持多种主流训练框架的直接加载。用户可通过Hugging Face生态的datasets库实现一键导入，亦可兼容Axolotl、OpenCompass等专业化训练工具链。每条数据以JSONL格式存储，包含问题、思维链和最终答案三个关键字段，这种结构化设计便于监督式微调过程中的数据迭代。研究人员可将该数据集应用于知识蒸馏、推理 specialization等场景，通过教师模型生成的高质量思维链指导小型模型掌握数学问题的解题路径。

背景与挑战

背景概述

随着大型语言模型在复杂推理任务中的突破性进展，如何将这种能力有效迁移至轻量化模型成为2025年人工智能领域的重要研究方向。GSM8K-Teacher-CoT-120B数据集应运而生，由研究团队基于OpenAI的gpt-oss-120B大模型构建，专注于小学数学习题领域，通过严格的短链思维提示技术生成高质量推理轨迹。该数据集包含约7200条经过标准化处理的数学问题与推理路径，旨在为参数量在0.5B至7B之间的小型模型提供精馏训练范本，推动紧凑模型在数学推理任务中的性能边界。

当前挑战

在数学推理领域，小型模型面临的核心挑战在于平衡模型复杂度与多步推理能力，传统方法往往因参数限制难以维持逻辑连贯性。数据集构建过程中需攻克三大难题：确保120B教师模型生成的思维链既简洁又具备确定性，严格消除LaTeX与特殊标记等格式噪声，以及通过温度参数与输出约束实现推理路径的可复现性。这些技术难点直接关系到知识蒸馏过程中信号保真度与模型泛化能力的提升。

常用场景

经典使用场景

在数学推理模型优化领域，GSM8K-Teacher-CoT-120B数据集被广泛应用于小型语言模型的思维链蒸馏训练。该数据集通过1200亿参数教师模型生成的简洁推理路径，为1B至7B参数规模的学生模型提供标准化监督信号。其经典应用场景包括在Granite 4.0H等紧凑模型架构上实施监督微调，通过结构化推理步骤提升模型解决小学数学问题的逻辑连贯性。

解决学术问题

该数据集有效解决了小参数模型数学推理能力不足的学术难题。通过提供经过严格格式控制的思维链样本，显著降低了模型在符号推理过程中的格式偏差。其确定性答案生成机制为评估模型推理准确性提供了可靠基准，推动了对紧凑模型认知架构的深入研究，填补了传统方法在推理可解释性方面的理论空白。

实际应用

在实际部署层面，该数据集支撑了教育科技领域的智能辅导系统开发。基于其纯净文本格式的推理样本，可构建具备分步解题能力的数学助手，帮助学习者理解解题逻辑。在边缘计算场景中，经该数据集优化的轻量级模型能部署于资源受限设备，为偏远地区提供可持续的数学教育支持，显著提升教育资源的普惠性。

数据集最近研究