five

32B_LLM_AdaptiveMath_data

收藏
Hugging Face2025-04-24 更新2025-04-25 收录
下载链接:
https://huggingface.co/datasets/ZTE-AIM/32B_LLM_AdaptiveMath_data
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包括32B_LLM_AdaptiveMath_data和32B_LLM_AdaptiveCode_data,用于训练LLM-Adaptive-ZMath-model-32B和LLM-Adaptive-ZCode-model-32B模型。这些数据集通过LLM-Adaptive问题难度分级方法构建,能够根据目标LLM的问题解决能力动态调整难度,以适应性地生成高质量的链式思维(CoT)数据。
创建时间:
2025-04-23
搜集汇总
数据集介绍
main_image_url
构建方式
在数学推理领域,32B_LLM_AdaptiveMath_data数据集的构建采用了创新的LLM自适应难度分级方法。研究团队基于DeepSeek-R1架构,通过动态评估问题难度并生成对应难度的思维链数据,构建了与目标模型解题能力相匹配的训练集。该过程包含自适应问题采样和响应生成两个关键环节,利用671B参数的教师模型蒸馏高质量CoT数据,最终形成包含2000个PRM分级样本的核心数据集。
使用方法
研究人员可通过Hugging Face平台便捷获取该数据集,并利用transformers库进行模型加载与推理。典型使用流程包括:初始化分词器和因果语言模型,配置多GPU自动分配策略,采用float16精度节省显存。推理时需构建包含逐步求解指令的提示词模板,通过generate方法生成连贯的解题过程。该数据集特别适合用于增强语言模型在数学推理任务中的分步解决问题能力。
背景与挑战
背景概述
32B_LLM_AdaptiveMath_data数据集由ZTE-AIM团队基于DeepSeek-R1-Distill-Qwen-32B架构开发,旨在通过创新的LLM自适应问题难度分级方法提升大语言模型在数学推理领域的性能。该数据集构建于2024年前后,核心创新在于利用DeepSeek-R1(671B)的推理能力蒸馏高质量思维链数据,并基于目标LLM自身解题能力动态构建难度匹配的训练集。这种自适应方法突破了传统思维链生成范式的局限,使模型能够通过渐进式学习复杂问题显著提升数学解题和代码生成等领域的推理能力。相关研究成果已发表于计算机科学顶级会议,为自适应训练范式在大型语言模型中的应用提供了重要范例。
当前挑战
该数据集面临的主要挑战体现在两个方面:在领域问题层面,数学推理任务要求模型具备精确的符号运算能力和多步骤逻辑推导能力,传统方法难以平衡问题难度与模型学习曲线的匹配度;在构建过程中,动态评估问题难度需要设计复杂的PRM评分机制,而高质量思维链数据的标注成本极高。此外,为保持32B参数模型训练的稳定性,需解决长序列(16,384 tokens)处理时的内存优化问题,这对分布式计算架构提出了严苛要求。如何在有限的高质量样本(如仅2K PRM分级数据)下实现模型性能超越,也是该研究需要突破的关键技术瓶颈。
常用场景
经典使用场景
在数学推理与代码生成领域,32B_LLM_AdaptiveMath_data数据集通过动态难度分级机制,为大型语言模型提供了渐进式学习的训练范式。该数据集最典型的应用场景是支撑基于DeepSeek-R1架构的模型微调,其创新性地采用问题难度自适应评估方法,使模型能够根据自身解题能力动态构建训练样本,从而系统性地提升复杂数学问题的分步推理能力。
解决学术问题
该数据集有效解决了传统思维链生成方法中训练数据质量不稳定的核心问题。通过利用671B参数规模的DeepSeek-R1模型蒸馏高质量推理数据,并结合PRM评分机制筛选样本,显著提升了小样本条件下的模型性能。实验表明,仅用2000个经过难度分级的样本训练的ZMath-32B模型,就在多个数学基准测试中全面超越了基线模型,验证了自适应思维链生成方法的学术价值。
实际应用
在实际应用层面,该数据集支撑的模型已展现出卓越的工程落地潜力。基于动态难度调整的微调策略,使得ZMath-32B等模型能够高效处理从基础算术到复杂数学证明的多层次问题。在教育科技领域,这种能力可转化为智能解题系统的核心引擎;在科研辅助场景中,则为自动公式推导和代码生成提供了可靠的技术基础。
数据集最近研究
最新研究方向
在大型语言模型(LLM)领域,32B_LLM_AdaptiveMath_data数据集的最新研究方向聚焦于自适应推理能力的优化与扩展。该数据集基于DeepSeek-R1架构,通过创新的LLM-自适应问题难度分级方法,动态构建与目标模型解题能力相匹配的训练数据,显著提升了数学推理和代码生成任务的性能。前沿研究正探索如何将这种自适应链式思维(CoT)生成方法应用于更广泛的领域,如科学计算和逻辑推理,同时结合高效的训练配置,如flash-attention2和Liger-Kernel技术,以降低计算成本并提升模型的可扩展性。这一方向不仅推动了LLM在复杂任务中的实际应用,也为模型的高效训练和优化提供了新的研究范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作