five

ScaleQM+

收藏
github2025-05-22 更新2025-05-23 收录
下载链接:
https://github.com/ZJU-REAL/Mind-the-Gap
下载链接
链接失效反馈
官方服务:
资源简介:
ScaleQM+是一个专门的数据集,源自结构化的ScaleQuestMath数据集,其中系统地引入了Thought Leaps并将其与完整的推理链配对。该数据集用于训练CoT-Bridge模型,以检测推理间隙并生成适当的桥接内容。

ScaleQM+ is a specialized dataset derived from the structured ScaleQuestMath dataset, which systematically introduces Thought Leaps and pairs them with complete reasoning chains. This dataset is utilized to train the CoT-Bridge model to detect reasoning gaps and generate appropriate bridging content.
创建时间:
2025-05-22
原始信息汇总

Mind the Gap: Bridging Thought Leap for Improved CoT Tuning 数据集概述

数据集基本信息

  • 名称: ScaleQM+
  • 来源: 基于ScaleQuestMath数据集构建
  • 开发者: 浙江大学、香港中文大学、微软亚洲研究院联合团队
  • 发布日期: 2025年5月22日
  • 论文状态: 预印本(Under review)
  • 论文地址: https://arxiv.org/abs/2505.14684
  • Hugging Face资源: https://huggingface.co/collections/zjuxhl/mind-the-gap-682cb7693b5f51f42162c7e3

研究背景

  • 核心问题: 解决大语言模型(LLMs)链式思维(CoT)推理中的"Thought Leaps"现象(即推理链中缺失的中间步骤)
  • 影响: 这种缺失会破坏推理链的连贯性和完整性,阻碍模型学习和泛化能力

数据集特点

  • 构建方法: 在结构化ScaleQuestMath数据集基础上系统引入Thought Leaps,并与完整推理链配对
  • 用途:
    • 训练CoT-Bridge模型(用于检测推理间隙并生成桥接内容)
    • 改进数学和逻辑推理任务的微调效果

技术贡献

  1. 首次系统识别并形式化CoT推理中的Thought Leap现象
  2. 提出CoT Thought Leap Bridge Task及评估框架
  3. 开发专用数据集ScaleQM+和模型CoT-Bridge
  4. 在数学推理数据集上实现**+5.87%**的性能提升
  5. 在域外逻辑推理基准上实现**+2.99%**的泛化提升
  6. 验证作为即插即用增强模块的兼容性(知识蒸馏+3.02%,强化学习+3.1%)

文件结构

Mind-the-Gap ├── CoT_Thought_Leap_Bridge_Task_Eval # 应用不同桥接方法并评估 ├── PRM # 使用Qwen2.5Math-PRM-7B评分构建去噪数据集 ├── RL # 强化学习冷启动评估 ├── SFT # CoT-Bridge训练和数学CoT微调 ├── ScaleQM+ # ScaleQM+数据集构建脚本 ├── logic_eval # 逻辑推理基准评估 ├── math_eval # 数学推理基准评估 └── requirements.txt # 评估依赖项

评估结果

  • 数学基准评估: 推荐使用DeepSeek R1或QwQ-32B进行复杂表达式验证
  • 逻辑推理评估: 使用IAAR-Shanghai/xFinder-qwen1505提取答案
  • 强化学习结果: 提供预训练模型zjuxhl/Qwen2.5Math1.5B-NuminaMath-bridge用于复现

引用格式

bibtex @misc{xu2025mindgapbridgingthought, title={Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning}, author={Haolei Xu and Yuchen Yan and Yongliang Shen and Wenqi Zhang and Guiyang Hou and Shengpei Jiang and Kaitao Song and Weiming Lu and Jun Xiao and Yueting Zhuang}, year={2025}, eprint={2505.14684}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.14684}, }

联系方式

  • xuhaolei@zju.edu.cn
  • syl@zju.edu.cn
  • luwm@zju.edu.cn
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,Chain-of-Thought(CoT)推理过程中存在思维跳跃现象,即人类专家基于隐含知识省略了他们认为琐碎的中间步骤。ScaleQM+数据集正是针对这一现象而构建,其基础来源于结构化的ScaleQuestMath数据集。研究团队通过系统性地引入思维跳跃,并将其与完整的推理链配对,形成了一个专门用于检测和填补推理间隙的数据集。这种构建方式不仅保留了原始数据的严谨性,还通过人工标注和自动生成相结合的方法,确保了数据集的完整性和可靠性。
使用方法
ScaleQM+数据集的使用体现了其作为研究工具的灵活性。研究人员可以通过提供的脚本快速构建和扩展数据集,应用于不同的实验场景。数据集特别适合用于微调语言模型,提升其在数学和逻辑推理任务中的表现。使用流程包括数据预处理、模型训练和评估三个阶段:首先利用提供的脚本处理原始数据,然后通过监督微调(SFT)训练CoT-Bridge模型,最后在数学和逻辑推理基准测试上进行性能评估。数据集还支持与强化学习等先进训练方法的结合,用户可以根据提供的配置文件和训练脚本,轻松复现论文中的实验结果或开展新的研究。
背景与挑战
背景概述
ScaleQM+数据集由浙江大学联合香港中文大学和微软亚洲研究院的研究团队于2025年提出,旨在解决大语言模型(LLMs)在思维链(CoT)推理过程中存在的'思维跳跃'问题。这一现象源于人类专家在推理时常常省略自认为显而易见的中间步骤,导致模型训练时难以捕捉完整的逻辑链条。研究团队基于结构化数学推理数据集ScaleQuestMath构建了ScaleQM+,通过系统性地引入思维跳跃并配以完整推理链,为CoT推理的完整性研究提供了重要基准。该数据集推动了可解释性AI的发展,显著提升了模型在数学和逻辑推理任务中的表现,对增强大语言模型的推理能力具有里程碑意义。
当前挑战
ScaleQM+数据集面临的挑战主要体现在两个方面:在领域问题层面,如何准确识别和填补思维链中缺失的推理步骤是一大难题,这要求模型具备深层逻辑理解能力;在构建过程中,研究人员需要平衡数据规模与标注质量,确保引入的思维跳跃既符合人类推理模式又不过于复杂。此外,评估自动生成的桥接步骤是否合理且自然,以及如何将桥接模型无缝集成到现有训练流程中,都是构建过程中需要克服的技术难点。这些挑战直接影响了模型在跨领域推理任务中的泛化能力。
常用场景
经典使用场景
在大型语言模型(LLM)的思维链(CoT)推理研究中,ScaleQM+数据集被广泛应用于识别和填补推理过程中的思维跳跃(Thought Leaps)。通过系统性地引入缺失的中间步骤,该数据集为研究者提供了一个标准化的工具,用于评估和改进模型的推理能力。特别是在数学和逻辑推理任务中,ScaleQM+通过其结构化的数据形式,帮助模型生成更连贯和完整的推理链,显著提升了推理性能。
解决学术问题
ScaleQM+数据集解决了思维链推理中一个关键但未被充分探索的问题:推理步骤的缺失。这种缺失通常是由于人类专家依赖隐式知识而忽略了他们认为琐碎的步骤,从而影响了模型的学习和泛化能力。通过自动检测和填补这些缺失步骤,ScaleQM+为研究者提供了一个有效的工具,显著提升了模型在数学和逻辑推理任务中的表现,同时也增强了推理过程的结构完整性和可解释性。
实际应用
在实际应用中,ScaleQM+数据集被用于优化大型语言模型的推理能力,特别是在教育和自动化问题求解领域。例如,在数学辅导系统中,该数据集可以帮助模型生成更详细的解题步骤,从而为学生提供更清晰的学习指导。此外,在自动化客服和决策支持系统中,ScaleQM+的应用能够显著提升模型的逻辑推理能力,使其能够更准确地理解和回应用户的复杂需求。
数据集最近研究
最新研究方向
在大型语言模型(LLM)的推理能力优化领域,ScaleQM+数据集的推出为链式思维(CoT)推理中的思维跳跃问题提供了系统化解决方案。该数据集基于ScaleQuestMath构建,通过人工引入并标注思维跳跃现象,为模型训练提供了完整的推理链补全样本。当前研究聚焦于如何利用CoT-Bridge模型自动检测和填补推理过程中的缺失步骤,这一技术显著提升了数学和逻辑推理任务的性能表现。在知识蒸馏和强化学习冷启动等场景中,该方法展现出优异的泛化能力,为构建更具解释性和鲁棒性的推理模型提供了新思路。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作