32B_LLM_AdaptiveMath_data

Hugging Face2025-04-24 更新2025-04-25 收录

下载链接：

https://huggingface.co/datasets/ZTE-AIM/32B_LLM_AdaptiveMath_data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包括32B_LLM_AdaptiveMath_data和32B_LLM_AdaptiveCode_data，用于训练LLM-Adaptive-ZMath-model-32B和LLM-Adaptive-ZCode-model-32B模型。这些数据集通过LLM-Adaptive问题难度分级方法构建，能够根据目标LLM的问题解决能力动态调整难度，以适应性地生成高质量的链式思维（CoT）数据。

创建时间：

2025-04-23

搜集汇总

数据集介绍

构建方式

在数学推理领域，32B_LLM_AdaptiveMath_data数据集的构建采用了创新的LLM自适应难度分级方法。研究团队基于DeepSeek-R1架构，通过动态评估问题难度并生成对应难度的思维链数据，构建了与目标模型解题能力相匹配的训练集。该过程包含自适应问题采样和响应生成两个关键环节，利用671B参数的教师模型蒸馏高质量CoT数据，最终形成包含2000个PRM分级样本的核心数据集。

使用方法

研究人员可通过Hugging Face平台便捷获取该数据集，并利用transformers库进行模型加载与推理。典型使用流程包括：初始化分词器和因果语言模型，配置多GPU自动分配策略，采用float16精度节省显存。推理时需构建包含逐步求解指令的提示词模板，通过generate方法生成连贯的解题过程。该数据集特别适合用于增强语言模型在数学推理任务中的分步解决问题能力。

背景与挑战

背景概述

32B_LLM_AdaptiveMath_data数据集由ZTE-AIM团队基于DeepSeek-R1-Distill-Qwen-32B架构开发，旨在通过创新的LLM自适应问题难度分级方法提升大语言模型在数学推理领域的性能。该数据集构建于2024年前后，核心创新在于利用DeepSeek-R1（671B）的推理能力蒸馏高质量思维链数据，并基于目标LLM自身解题能力动态构建难度匹配的训练集。这种自适应方法突破了传统思维链生成范式的局限，使模型能够通过渐进式学习复杂问题显著提升数学解题和代码生成等领域的推理能力。相关研究成果已发表于计算机科学顶级会议，为自适应训练范式在大型语言模型中的应用提供了重要范例。

当前挑战

该数据集面临的主要挑战体现在两个方面：在领域问题层面，数学推理任务要求模型具备精确的符号运算能力和多步骤逻辑推导能力，传统方法难以平衡问题难度与模型学习曲线的匹配度；在构建过程中，动态评估问题难度需要设计复杂的PRM评分机制，而高质量思维链数据的标注成本极高。此外，为保持32B参数模型训练的稳定性，需解决长序列（16,384 tokens）处理时的内存优化问题，这对分布式计算架构提出了严苛要求。如何在有限的高质量样本（如仅2K PRM分级数据）下实现模型性能超越，也是该研究需要突破的关键技术瓶颈。

常用场景

经典使用场景

在数学推理与代码生成领域，32B_LLM_AdaptiveMath_data数据集通过动态难度分级机制，为大型语言模型提供了渐进式学习的训练范式。该数据集最典型的应用场景是支撑基于DeepSeek-R1架构的模型微调，其创新性地采用问题难度自适应评估方法，使模型能够根据自身解题能力动态构建训练样本，从而系统性地提升复杂数学问题的分步推理能力。

解决学术问题

该数据集有效解决了传统思维链生成方法中训练数据质量不稳定的核心问题。通过利用671B参数规模的DeepSeek-R1模型蒸馏高质量推理数据，并结合PRM评分机制筛选样本，显著提升了小样本条件下的模型性能。实验表明，仅用2000个经过难度分级的样本训练的ZMath-32B模型，就在多个数学基准测试中全面超越了基线模型，验证了自适应思维链生成方法的学术价值。

实际应用

在实际应用层面，该数据集支撑的模型已展现出卓越的工程落地潜力。基于动态难度调整的微调策略，使得ZMath-32B等模型能够高效处理从基础算术到复杂数学证明的多层次问题。在教育科技领域，这种能力可转化为智能解题系统的核心引擎；在科研辅助场景中，则为自动公式推导和代码生成提供了可靠的技术基础。

数据集最近研究