CRUX

Name: CRUX
Creator: 吉林大学, 蚂蚁集团, 香港中文大学, 知识驱动人机智能教育部工程研究中心
Published: 2025-12-17 02:13:54
License: 暂无描述

arXiv2025-12-17 更新2025-12-18 收录

下载链接：

https://github.com/Leon-LihongWang/ViRC

下载链接

链接失效反馈

官方服务：

资源简介：

CRUX是由蚂蚁集团等机构构建的多模态数学推理数据集，包含10万条标注样本，每条样本包含1条正确推理路径和2条典型错误路径。该数据集通过三阶段标注流程（路径采样、CRU映射、视觉锚定）生成，创新性地将数学问题的推理过程分解为连续的关键推理单元（CRU），并整合了裁剪、缩放、显示三种视觉工具。数据覆盖规划、验证、回溯、反思四种认知模式，旨在通过结构化视觉-文本交错推理链，解决现有MLLMs在数学任务中视觉动态感知不足和冗余信息注入的问题，为几何证明等复杂数学推理提供细粒度训练支持。

提供机构：

吉林大学, 蚂蚁集团, 香港中文大学, 知识驱动人机智能教育部工程研究中心

创建时间：

2025-12-17

原始信息汇总

ViRC 数据集概述

数据集基本信息

数据集名称：ViRC (Visual Interleaved Mathematical CoT with Reason Chunking)
官方描述：用于增强视觉交错数学思维链（CoT）与推理分块（Reason Chunking）的数据集。
当前状态：数据即将发布（Dataset Coming Soon）。

引用信息

如需在学术工作中使用此数据集，请引用以下论文：

@article{wang2025virc, title={ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking}, author={Lihong, Wang and Liangqi, Li and Weiwei, Feng and Jiamin, Wu and Changtao, Miao and Tieru, Wu and Rui, Ma and Bo, Zhang and Zhe, Li}, journal={arXiv preprint arXiv:2512.14654}, year={2025} }

搜集汇总

数据集介绍

构建方式

在构建CRUX数据集时，研究团队采用了一种三阶段标注流程，以生成结构化的多模态数学推理数据。首先，通过在不同图像尺度上采样，生成多样化的推理路径，包括正确与错误路径，以模拟人类解题过程中的尝试与修正。随后，将细粒度的推理步骤映射至关键推理单元（CRU），每个CRU封装一个自包含的中间命题，确保文本逻辑的连贯性。最后，通过视觉工具（裁剪、缩放、显示）为每个CRU赋予视觉基础，生成图像描述、解题原理和引导性问题，从而构建出包含明确CRU注释的多路径推理数据集。

特点

CRUX数据集的核心特点在于其仿照人类认知科学中的信息组块理论，将多模态数学推理过程结构化为一系列关键推理单元。每个CRU不仅维持了文本推理的连贯性，还通过动态注入视觉信息支持后续命题，实现了自适应视觉注意力。数据集涵盖了四种与人类对齐的认知模式——规划、验证、回溯和反思，并提供了三种视觉工具来模拟专家选择性审视行为。此外，每个数学问题都包含多个推理路径，为模型训练提供了丰富的监督信号，使其能够学习层次化的问题解决策略。

使用方法

CRUX数据集的使用方法主要围绕其支持的三阶段渐进式训练策略展开。在指令监督微调阶段，模型将数据集视为纯文本进行学习，内化CRU的结构化推理模板。在实践监督微调阶段，模型使用完整的多模态数据集，执行工具调用并接收视觉反馈，以完成当前CRU的推理。在策略强化学习阶段，模型在从CRUX衍生的困难子集上进行训练，通过结合答案正确性、多模态一致性、推理模式对齐和格式有效性等多重奖励信号，优化其推理和工具选择能力。这种使用方法旨在逐步增强模型的Reason Chunking能力，最终提升其在多模态数学任务上的表现。

背景与挑战

背景概述

CRUX数据集由吉林大学、蚂蚁集团及香港中文大学等机构的研究团队于2025年提出，旨在解决多模态大语言模型在数学推理任务中面临的视觉与文本交织推理难题。该数据集基于认知科学中的米勒定律，通过引入“原因分块”机制，将复杂的多模态数学推理过程分解为一系列关键推理单元，模拟人类专家逐步验证中间命题的解题模式。CRUX包含10万条样本，每条样本均提供显式标注的CRU结构，覆盖规划、验证、回溯与反思四种认知模式，为模型训练提供了层次化、结构化的监督信号，显著提升了模型在MathVista、MMStar等数学基准上的推理性能。

当前挑战

CRUX数据集主要应对多模态数学推理中两大挑战：一是传统视觉思维链方法在每一步均注入视觉信号，导致冗余信息干扰与计算效率低下；二是现有方法缺乏对推理过程的层次化分解能力，难以模拟人类选择性关注视觉线索的认知策略。在构建过程中，研究团队需设计三阶段标注流程以生成多样化的推理路径，并确保每个关键推理单元与视觉区域及辅助文本的精准对齐，同时需整合裁剪、缩放、显示三种视觉工具以支持动态视觉获取，这些要求对标注一致性、逻辑连贯性与多模态对齐提出了较高技术要求。

常用场景

经典使用场景

在视觉数学推理领域，CRUX数据集为多模态大语言模型提供了结构化的训练范例，其核心应用场景在于模拟人类专家解决几何问题的认知过程。该数据集通过精心设计的Critical Reasoning Units（CRUs）机制，将复杂的数学证明分解为一系列逻辑连贯的中间命题单元，每个单元都配备了动态视觉标注和文本推理步骤。这种设计使得模型能够学习在推理过程中选择性关注图像关键区域，而非盲目注入视觉信号，从而有效提升了多模态CoT在几何证明、代数推导等任务中的准确性和可解释性。

衍生相关工作

基于CRUX数据集的创新范式，学术界衍生出多个重要研究方向。在模型架构方面，MM-Eureka等研究借鉴其分层推理思想，将强化学习与规则系统结合以提升数学推理的稳定性；在训练策略上，Hint-GRPO等工作受其渐进式训练启发，设计了针对文本偏差的奖励机制。同时，该数据集揭示的视觉-文本对齐问题催生了Visual Planning等新型推理框架，这些框架通过生成式视觉反馈来增强模型的空间想象能力。这些衍生工作共同构成了多模态推理领域从感知到认知跨越的技术图谱。

数据集最近研究

CRUX

ViRC 数据集概述

数据集基本信息

相关资源

引用信息