five

OpenR1-Math-220k

收藏
arXiv2025-04-23 更新2025-04-25 收录
下载链接:
http://arxiv.org/abs/2504.16379v1
下载链接
链接失效反馈
官方服务:
资源简介:
OpenR1-Math-220k数据集是由康奈尔大学创建的,包含220k个数学问题的链式推理轨迹。本研究从中采样了18k个轨迹,通过DeepSeek-R1模型标注了最困难的推理片段,并用特殊标签<bigmodel>和</bigmodel>进行了标记。数据集用于训练小型模型识别推理过程中的困难片段,并学会在适当的时候触发向大型模型的推理任务迁移。

The OpenR1-Math-220k dataset, developed by Cornell University, contains 220k chain-of-thought reasoning traces for mathematical problems. This study sampled 18k traces from the dataset, annotated the most challenging reasoning segments using the DeepSeek-R1 model, and marked them with the special tags <bigmodel> and </bigmodel>. This dataset is designed to train small models to identify challenging segments within the reasoning process, and learn to appropriately trigger the transfer of reasoning tasks to large models.
提供机构:
康奈尔大学
创建时间:
2025-04-23
搜集汇总
数据集介绍
main_image_url
构建方式
OpenR1-Math-220k数据集构建过程基于18,000条数学推理轨迹的精细标注。研究团队采用DeepSeek-R1 671B模型对OpenR1-Math-220k原始数据中的复杂推理片段进行智能识别,通过模糊文本匹配技术精准定位困难推理段落,并采用<bigmodel>和</bigmodel>特殊标记进行语义分割。该标注流程实现了对数学推理过程中关键难点区域的自动化标识,为后续模型训练提供了结构化的监督信号。数据集构建特别注重保持原始推理逻辑的完整性,同时确保标注片段约占整体内容的20%,以平衡训练效率与模型性能。
特点
该数据集最显著的特征在于其创新的分层标注体系,通过特殊控制标记实现了推理难度的细粒度划分。数据样本完整保留了数学问题的多步推理链条,每个样本平均包含5.4个推理步骤,其中关键难点步骤均被<bigmodel>标记明确标识。数据分布分析显示,困难推理片段在整体序列中出现位置均匀,但在初始推理阶段出现频率略高(约占比35%),这反映了数学问题求解中基础概念建立阶段的高认知负荷特性。此外,数据集覆盖代数、几何等六大数学分支,问题难度呈阶梯式分布,为模型提供了全面的推理能力训练场景。
使用方法
该数据集主要用于训练模型实现动态推理卸载能力。在使用时,研究者首先对1.5B参数的基础模型进行监督微调(SFT),使其学习识别并标注困难推理片段。随后采用分组相对策略优化(GRPO)进行强化学习微调,通过组合准确性奖励(40%)、格式规范奖励(30%)和卸载比例奖励(30%)的三元奖励机制,精细调控模型的卸载决策。实际部署时,小型模型在常规推理阶段自主运作,当检测到<bigmodel>标记时自动触发大型模型接管,形成协同推理管道。这种使用方法在AIME24数学竞赛题上实现了28.3%的准确率提升,同时仅增加5%的计算开销。
背景与挑战
背景概述
OpenR1-Math-220k是由康奈尔大学的研究团队于2025年发布的一个专注于数学推理的链式思维(Chain-of-Thought, CoT)数据集。该数据集旨在解决大型语言模型(LLMs)在复杂数学推理任务中生成长序列时的效率问题。研究团队通过标注18,000条推理轨迹中的困难部分,并引入特殊的控制标记(<bigmodel>和</bigmodel>),以指导模型在推理过程中将困难部分卸载到更大的模型。这一创新不仅提升了推理的准确性,还显著降低了计算成本。OpenR1-Math-220k的发布为推理模型的优化提供了新的研究方向,特别是在模型协同推理和计算效率方面具有重要的影响力。
当前挑战
OpenR1-Math-220k面临的挑战主要包括两个方面:一是领域问题的挑战,即如何在高精度数学推理任务中平衡生成序列的长度与计算效率,尤其是在多步推理中避免内存和计算资源的过度消耗;二是构建过程中的挑战,包括如何准确标注推理轨迹中的困难部分,以及如何训练小型模型在适当的位置触发卸载机制。此外,数据集的构建还需要解决模型协同推理中的实时性和一致性难题,确保卸载机制的触发既不影响推理的流畅性,又能显著提升整体性能。
常用场景
经典使用场景
OpenR1-Math-220k数据集在大型语言模型(LLM)推理优化研究中扮演了关键角色,尤其在链式推理(Chain-of-Thought, CoT)任务中。该数据集通过标注推理轨迹中的困难片段,为模型提供了学习何时将复杂推理步骤卸载到更大模型的训练基础。其经典使用场景包括监督微调(SFT)和强化学习微调(RLFT),以训练小型模型识别并触发对大型模型的动态卸载,从而在保证推理准确性的同时显著提升效率。
衍生相关工作
该数据集催生了多项创新研究,包括基于强化学习的效率优化范式(RL4E)和动态卸载策略的通用化框架。后续工作如DeepSeek-R1进一步扩展了标注方法,而SplitReason的开源实现推动了多模型协同推理的标准化。相关研究还探索了将类似机制应用于模型量化、剪枝等硬件适配任务,形成了一条从理论到实践的研究链路。
数据集最近研究
最新研究方向
在大型语言模型(LLMs)的推理效率优化领域,OpenR1-Math-220k数据集的最新研究聚焦于通过分阶段推理卸载策略提升计算效率与推理准确性的平衡。该研究提出的SplitReason方法创新性地利用强化学习微调(RLFT)技术,训练小型模型(1.5B参数)自主识别复杂推理片段并触发向大型模型(32B参数)的动态计算卸载。实验表明,仅卸载1.35%-5%的推理过程即可使AIME24数学推理准确率提升24%-28.3%,同时实现4-6倍的推理加速。这一技术突破不仅验证了推理任务中计算资源非均匀分布的特性,更开创了RL4E(面向效率的强化学习)新范式,为模型压缩、量化等硬件适配技术提供了可扩展的框架。当前研究热点进一步延伸至多模型协同推理的流水线优化,以及基于KV-Cache内存管理的实时延迟控制,这些方向正推动着高效推理技术向生产级应用迈进。
相关研究论文
  • 1
    SplitReason: Learning To Offload Reasoning康奈尔大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作