tunix-stem-sft

Hugging Face2025-11-20 更新2025-11-21 收录

下载链接：

https://huggingface.co/datasets/yen-av/tunix-stem-sft

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于训练1-2B规模思考模型在数学、编程和科学问题上的推理数据集。每个示例包含问题陈述、逐步推理、最终答案、领域和原始数据集名称。数据集源自GSM8K、TextbookReasoning和MBPP等，适用于与Tunix SFT配合训练Gemima模型，学习简洁的推理轨迹以匹配比赛格式。

创建时间：

2025-11-18

原始信息汇总

Tunix STEM SFT 数据集概述

数据集基本信息

数据集名称: Reasoning Training Dataset for Tunix Competition
主要用途: 训练1-2B思考模型解决数学、编程和科学问题
数据集地址: https://huggingface.co/datasets/yen-av/tunix-stem-sft

配置版本详情

default配置

样本数量: 429,645
数据大小: 485,450,485字节
下载大小: 251,905,581字节
特征字段:
- prompt、reasoning、answer、domain、source
- reasoning_length、task_id、text、code
- test_list、test_setup_code、challenge_test_list

gsm-textbook配置

样本数量: 428,681
数据大小: 472,726,095字节
下载大小: 250,545,416字节
特征字段:
- prompt、reasoning、answer、domain、source、reasoning_length

mbpp配置

样本数量: 964
数据大小: 2,114,530字节
下载大小: 1,043,277字节
特征字段:
- task_id、text、code、test_list、test_setup_code、challenge_test_list
- prompt、reasoning、answer、domain、source、reasoning_length

sft-20k配置

样本数量: 20,000
数据大小: 22,559,496.812348995字节
下载大小: 12,683,986字节
特征字段: 与default配置相同

verifiable配置

样本数量: 211,163
数据大小: 213,820,869字节
下载大小: 110,783,444字节
特征字段: 在default基础上增加answer_type字段

verifiable-20k配置

样本数量: 20,000
数据大小: 20,164,860.36052736字节
下载大小: 11,397,191字节
特征字段: 与verifiable配置相同

数据来源

GSM8K: 小学数学问题，包含人类推理轨迹
TextbookReasoning: STEM问题，包含逐步解决方案
MBPP: 基础Python编程提示，包含gpt-oss-20b生成的推理轨迹

数据格式

每个样本包含以下字段：

prompt: 问题描述
reasoning: 逐步推理过程
answer: 最终答案
domain: 领域分类（数学|物理|计算机科学|化学|生物学|代码）
source: 原始数据集名称

预期用途

使用Tunix SFT训练Gemma模型，学习符合竞赛格式的简洁推理轨迹：

<reasoning>逐步思考过程</reasoning> <answer>最终答案</answer>

许可证

继承自源数据集的许可证

搜集汇总

数据集介绍

构建方式

在科学教育数据整合领域，tunix-stem-sft数据集通过系统化采集多源权威数据构建而成。其核心素材来源于GSM8K的基础数学题解、TextbookReasoning的STEM学科分步推导以及MBPP的编程问题，这些原始数据均包含人工标注或模型生成的可验证推理链条。构建过程中采用标准化处理流程，将异构数据统一为包含问题陈述、推理步骤和最终答案的结构化格式，并添加领域分类与溯源标识以确保数据完整性。

使用方法

针对思维链模型训练场景，该数据集适配监督式微调技术路线。研究人员可直接加载标准化数据分割，利用预定义的推理-答案标签对进行端到端训练。训练时应遵循数据集指定的XML式标记规范，将推理过程封装于<reasoning>标签内，最终答案置于<answer>标签中。对于代码类任务，可结合内置测试框架进行模型输出的自动化验证，确保推理结果的执行正确性。

背景与挑战

背景概述

随着人工智能在STEM教育领域的发展，tunix-stem-sft数据集应运而生，专为训练具备思维链推理能力的小型语言模型而设计。该数据集由Tunix竞赛组织者于2023年构建，整合了GSM8K数学题解、教科书级科学问题及MBPP编程任务三大核心资源，通过结构化标注推动模型掌握从问题理解到答案推导的完整认知过程。其创新性地将数学推理、代码生成与科学知识融合，为轻量化模型在复杂逻辑任务上的性能突破提供了关键训练基础，显著促进了教育人工智能领域的技术演进。

当前挑战

在STEM问题求解领域，模型需克服多步骤逻辑推理与跨学科知识整合的双重挑战，尤其需要平衡推理链的严谨性与生成效率。数据集构建过程中面临源数据异构性难题，包括数学符号标准化、程序代码执行验证以及科学术语一致性处理。此外，人工标注的推理轨迹需保持逻辑连贯性与教育规范性，而自动生成的推理内容又需通过对抗性测试确保其正确性，这些因素共同构成了数据集质量控制的复杂生态。

常用场景

经典使用场景

在STEM教育智能化进程中，tunix-stem-sft数据集被广泛应用于训练中小型语言模型的推理能力。该数据集通过整合数学、编程及科学领域的结构化问题，为模型提供标准化的思维链学习样本。其经典使用场景体现在监督式微调过程中，模型通过解析包含逐步推理步骤的样本，掌握从问题陈述到最终答案的完整逻辑推导路径，特别适用于培养1-2B参数规模模型的系统性思维能力。

解决学术问题

该数据集有效解决了人工智能领域符号推理与神经计算融合的关键难题。通过提供包含人类推理轨迹和机器生成思维链的混合数据，显著提升了模型在复杂STEM问题上的泛化能力。其多领域覆盖特性突破了传统单一学科数据集的局限性，为研究跨领域知识迁移、推理过程可解释性等核心问题提供了实验基础，推动了认知计算与教育人工智能的交叉研究进展。

实际应用

在现实教育场景中，该数据集支撑的智能辅导系统能动态生成解题思路，为不同认知水平的学习者提供个性化指导。其标准化的推理格式便于集成到在线教育平台，实现自动解题与步骤批改功能。工业界将其应用于代码生成与科学计算领域，通过模型对编程问题和科学问题的结构化推理，显著提升自动化系统的准确性与可靠性，为智能制造和科研辅助工具开发提供核心能力支撑。

数据集最近研究