gpt-oss-120B-distilled-math-OpenAI-Harmony

Hugging Face2025-08-21 更新2025-08-22 收录

下载链接：

https://huggingface.co/datasets/Jackrong/gpt-oss-120B-distilled-math-OpenAI-Harmony

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于gpt-oss-120b模型生成的数学问题解决数据集，用于文本分类、问答、文本生成和摘要等任务。数据集格式为JSON Lines，包含生成器、类别、输入和输出等字段。数据集通过推理复杂度比率和答案效率比率等指标进行评估，并推荐用于CoT训练和评估。

创建时间：

2025-08-15

搜集汇总

数据集介绍

构建方式

在数学推理数据集构建领域，本数据集采用知识蒸馏技术，通过gpt-oss-120b模型对种子数学问题进行深度推理生成。原始问题源自Nemotron后训练数据集，经过严格的模板化处理，每个样本包含完整的推理链和最终答案，并以JSON Lines格式存储，确保数据结构的规范性与可扩展性。生成过程中注重逻辑连贯性，采用多轮对话模板模拟真实解题场景，使推理过程既详细又符合数学推导的专业标准。

特点

该数据集显著特点是其高复杂度的推理链结构，平均推理复杂度比率达到39.19，表明模型对简短输入能生成详尽的推导过程。数据样本包含丰富的数学表达式，全面采用LaTeX进行公式排版，确保数学符号的精确呈现。同时，答案效率比率保持在0.67的优良水平，体现推理过程发散性与答案收敛性的平衡。每个样本均包含问题分类、生成模型来源等元数据，为研究者提供多维度的分析基础。

使用方法

使用者可通过加载JSON Lines格式文件直接访问数据集，每条记录包含完整的输入-输出对。建议在数学推理模型训练中采用思维链监督学习，重点关注推理过程的逻辑一致性。评估时应同时测量含思维链与不含思维链的准确率，并配备专门的答案提取器处理数值输出。对于长样本建议采用分块处理策略，同时设置质量阈值过滤不一致样本，以确保训练数据的可靠性。

背景与挑战

背景概述

数学推理数据集gpt-oss-120B-distilled-math-OpenAI-Harmony由研究者Jackrong于2025年构建，依托gpt-oss-120b大语言模型的生成能力，专注于复杂数学问题的求解与推理链生成。该数据集通过蒸馏技术提炼模型中的数学推理能力，采用结构化JSONL格式存储，涵盖几何、代数等多类数学问题，其生成内容包含完整的逻辑推导与LaTeX公式表达，为数学自动推理领域提供了高质量的思维链训练样本，显著推动了教育人工智能与自动定理证明的发展。

当前挑战

该数据集致力于解决数学问题自动推理中的两大挑战：一是模型需同时处理形式化数学语言与自然语言描述，确保推理逻辑的严密性与答案的精确性；二是构建过程中需平衡推理链的复杂度与答案的收敛性，避免生成冗余或矛盾的步骤。此外，数据蒸馏阶段需克服大模型生成内容的稳定性问题，通过量化指标如推理复杂度比率（39.19）与答案效率比率（0.67）严格控制质量，并设计安全阈值过滤错误样本。

常用场景

经典使用场景

在数学推理任务中，该数据集被广泛应用于训练和评估大型语言模型的思维链生成能力。通过提供结构化的数学问题及其详细推理过程，它支持模型学习从问题理解到最终答案的完整逻辑推导路径，尤其适用于几何、代数等复杂数学领域的多步推理场景。

衍生相关工作

基于该数据集衍生的经典工作包括链式思维蒸馏技术、数学推理专用模板优化方法，以及多模态数学表达生成系统。这些工作显著提升了模型在IMO竞赛题、奥林匹克数学等高端推理任务中的表现，并催生了新一代数学专用大语言模型的训练范式。

数据集最近研究