ScaleQM+
收藏Mind the Gap: Bridging Thought Leap for Improved CoT Tuning 数据集概述
数据集基本信息
- 名称: ScaleQM+
- 来源: 基于ScaleQuestMath数据集构建
- 开发者: 浙江大学、香港中文大学、微软亚洲研究院联合团队
- 发布日期: 2025年5月22日
- 论文状态: 预印本(Under review)
- 论文地址: https://arxiv.org/abs/2505.14684
- Hugging Face资源: https://huggingface.co/collections/zjuxhl/mind-the-gap-682cb7693b5f51f42162c7e3
研究背景
- 核心问题: 解决大语言模型(LLMs)链式思维(CoT)推理中的"Thought Leaps"现象(即推理链中缺失的中间步骤)
- 影响: 这种缺失会破坏推理链的连贯性和完整性,阻碍模型学习和泛化能力
数据集特点
- 构建方法: 在结构化ScaleQuestMath数据集基础上系统引入Thought Leaps,并与完整推理链配对
- 用途:
- 训练CoT-Bridge模型(用于检测推理间隙并生成桥接内容)
- 改进数学和逻辑推理任务的微调效果
技术贡献
- 首次系统识别并形式化CoT推理中的Thought Leap现象
- 提出CoT Thought Leap Bridge Task及评估框架
- 开发专用数据集ScaleQM+和模型CoT-Bridge
- 在数学推理数据集上实现**+5.87%**的性能提升
- 在域外逻辑推理基准上实现**+2.99%**的泛化提升
- 验证作为即插即用增强模块的兼容性(知识蒸馏+3.02%,强化学习+3.1%)
文件结构
Mind-the-Gap ├── CoT_Thought_Leap_Bridge_Task_Eval # 应用不同桥接方法并评估 ├── PRM # 使用Qwen2.5Math-PRM-7B评分构建去噪数据集 ├── RL # 强化学习冷启动评估 ├── SFT # CoT-Bridge训练和数学CoT微调 ├── ScaleQM+ # ScaleQM+数据集构建脚本 ├── logic_eval # 逻辑推理基准评估 ├── math_eval # 数学推理基准评估 └── requirements.txt # 评估依赖项
评估结果
- 数学基准评估: 推荐使用DeepSeek R1或QwQ-32B进行复杂表达式验证
- 逻辑推理评估: 使用IAAR-Shanghai/xFinder-qwen1505提取答案
- 强化学习结果: 提供预训练模型zjuxhl/Qwen2.5Math1.5B-NuminaMath-bridge用于复现
引用格式
bibtex @misc{xu2025mindgapbridgingthought, title={Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning}, author={Haolei Xu and Yuchen Yan and Yongliang Shen and Wenqi Zhang and Guiyang Hou and Shengpei Jiang and Kaitao Song and Weiming Lu and Jun Xiao and Yueting Zhuang}, year={2025}, eprint={2505.14684}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.14684}, }
联系方式
- xuhaolei@zju.edu.cn
- syl@zju.edu.cn
- luwm@zju.edu.cn




