ScaleQM+
收藏arXiv2025-05-21 更新2025-05-22 收录
下载链接:
https://ccai-lab.github.io/CoT-Bridge
下载链接
链接失效反馈官方服务:
资源简介:
ScaleQM+是一个专门用于CoT推理跳跃桥接任务的训练数据集,基于结构化的ScaleQuestMath数据集构建,旨在自动检测推理跳跃并生成缺失的中间推理步骤,以恢复CoT的完整性和连贯性。该数据集包含从ScaleQuestMath数据集中系统地移除中间步骤的不完整推理链,以及相应的完整推理链作为参考。通过在数学推理基准上进行实验,证明在ScaleQM+上微调的模型在性能上显著优于在原始数据集上训练的模型。数据集的应用领域是数学推理,旨在解决现有数学CoT数据集中存在的推理跳跃问题,提高模型的学习和泛化能力。
ScaleQM+ is a training dataset specifically designed for the chain-of-thought (CoT) reasoning jump bridging task, built upon the structured ScaleQuestMath dataset. It aims to automatically detect reasoning jumps and generate missing intermediate reasoning steps to restore the integrity and coherence of CoT reasoning chains. This dataset includes incomplete reasoning chains obtained by systematically removing intermediate steps from the ScaleQuestMath dataset, paired with their corresponding complete reasoning chains as references. Experiments conducted on mathematical reasoning benchmarks demonstrate that models fine-tuned on ScaleQM+ significantly outperform those trained on the original ScaleQuestMath dataset. Targeting the field of mathematical reasoning, this dataset is designed to address the reasoning jump issues prevalent in current mathematical CoT datasets and enhance the learning and generalization capabilities of models.
提供机构:
浙江大学, 香港中文大学, 微软亚洲研究院
创建时间:
2025-05-21
搜集汇总
数据集介绍

构建方式
ScaleQM+数据集的构建基于结构化的ScaleQuestMath数据集,通过系统性地移除中间推理步骤来创建思维跳跃现象。具体而言,研究团队从完整的推理链中战略性地删除部分中间步骤,形成不完整的推理链,并将这些被移除的步骤作为填补思维跳跃的参考依据。构建过程中遵循了保留最终答案步骤、根据推理链长度调整删除步骤数量等原则,以确保数据集的多样性和有效性。
特点
ScaleQM+数据集的主要特点在于其专注于数学推理中的思维跳跃现象。该数据集通过精心设计的步骤删除策略,模拟了专家在推理过程中可能忽略的中间步骤,从而为研究如何填补这些跳跃提供了理想的研究平台。数据集规模庞大,包含588k训练样本和10k测试样本,覆盖了从基础到复杂的数学问题,为模型训练和评估提供了丰富的素材。
使用方法
ScaleQM+数据集主要用于训练和评估能够检测并填补思维跳跃的模型。研究人员可以将其用于监督学习,训练模型识别推理链中的缺失步骤并生成适当的中间推理内容。此外,该数据集还可用于增强现有数学推理数据集的质量,通过填补其中的思维跳跃来提高下游模型的推理能力。使用时可结合特定的提示模板,指导模型完成思维跳跃的检测和填补任务。
背景与挑战
背景概述
ScaleQM+数据集由浙江大学与微软亚洲研究院等机构的研究团队于2025年提出,旨在解决大语言模型(LLMs)在数学推理任务中存在的思维跳跃(Thought Leap)问题。该数据集基于结构化数学问题数据集ScaleQuestMath构建,通过系统化删除中间推理步骤并生成补充步骤,形成了包含58.8万训练样本的专用语料。其核心创新在于首次形式化定义了推理链中的步骤缺失现象,并提出自动检测与填补方法,显著提升了CoT(Chain-of-Thought)推理的完整性与连贯性。该工作发表于arXiv预印平台,对数学推理、逻辑推理等领域的模型训练范式产生了深远影响,被证实可使模型在NuminaMath等基准上获得最高5.87%的性能提升。
当前挑战
ScaleQM+针对两大挑战展开研究:在领域问题层面,传统数学CoT数据集中专家常省略「显然」步骤,导致模型难以学习完整推理路径(如鸽巢原理应用中缺失求和范围计算步骤)。这类思维跳跃使模型准确率下降最高达27.83%。在构建层面,需解决三步关键技术难题:1)精准定位不连贯的相邻推理步骤对,要求模型具备逻辑间隙识别能力;2)生成符合数学严谨性的中间步骤,需平衡自动生成内容的正确性与教育价值;3)保持原始推理链的语义一致性,避免插入步骤引发新的逻辑断裂。实验表明,错误定位会导致模型性能波动达4.63%,而低质量填充步骤可能引入14.81%的噪声数据。
常用场景
经典使用场景
ScaleQM+数据集在数学推理任务中展现了其经典应用场景,特别是在处理链式思维(Chain-of-Thought, CoT)推理中的思维跳跃(Thought Leap)问题时。该数据集通过系统性地识别和填补专家演示中遗漏的中间推理步骤,显著提升了大型语言模型(LLMs)在复杂数学问题上的推理能力。例如,在解决涉及鸽巢原理(pigeonhole principle)的概率问题时,ScaleQM+能够自动检测并生成缺失的中间步骤,使得推理链条更加完整和连贯。这种能力不仅提高了模型的解题准确性,还增强了其推理过程的可解释性。
衍生相关工作
ScaleQM+数据集的研究工作衍生了一系列相关经典研究。基于该数据集训练的CoT-Bridge模型不仅提升了数学推理任务的性能,还展示了在逻辑推理等跨领域任务中的良好泛化能力。此外,该研究启发了后续关于推理链完整性的多项工作,如MetaMathQA和NuminaMath-CoT等数据集的增强版本。这些衍生工作进一步验证了填补思维跳跃对提升模型推理能力的普适性价值,并为构建更高质量的数学推理数据集提供了新的思路和方法。
数据集最近研究
最新研究方向
在数学推理领域,ScaleQM+数据集的最新研究方向聚焦于解决Chain-of-Thought (CoT) 推理中的Thought Leap现象。这一现象指的是专家在推理过程中省略中间步骤,导致推理链不完整,进而影响模型的学习和泛化能力。通过构建专门的训练数据集ScaleQM+,并开发CoT-Bridge模型来自动检测和填补这些缺失的中间推理步骤,研究团队显著提升了数学推理任务的性能。实验结果表明,使用经过桥接的数据集进行微调的模型在多个数学推理基准测试中表现优异,性能提升高达5.87%。此外,该方法还展示了在知识蒸馏和强化学习中的兼容性,进一步验证了其在提升推理能力方面的广泛适用性。
相关研究论文
- 1Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning浙江大学, 香港中文大学, 微软亚洲研究院 · 2025年
以上内容由遇见数据集搜集并总结生成



