MINT-CoT

Name: MINT-CoT
Creator: 香港中文大学多媒体实验室（CUHK MMLab）
Published: 2025-06-06 01:59:02
License: 暂无描述

arXiv2025-06-06 更新2025-06-07 收录

下载链接：

https://github.com/xinyan-cxy/MINT-CoT

下载链接

链接失效反馈

官方服务：

资源简介：

MINT-CoT数据集由香港中文大学多媒体实验室构建，包含54,000个数学问题，每个问题都与其推理步骤在token级别上与视觉区域对齐，并伴随一个严格的数据生成流程。该数据集旨在解决现有方法在解决数学问题时所面临的三个主要限制：依赖于粗粒度的框状图像区域、视觉编码器对数学内容的感知有限以及依赖于外部能力进行视觉修改。MINT-CoT数据集通过在推理步骤中自适应地交织相关视觉token，为训练多模态数学推理模型提供了基础。

The MINT-CoT dataset was constructed by the Multimedia Laboratory of The Chinese University of Hong Kong. It contains 54,000 mathematical problems, each of which has its reasoning steps aligned with corresponding visual regions at the token level and is accompanied by a rigorous data generation pipeline. This dataset aims to resolve three major limitations faced by existing approaches to mathematical problem solving: reliance on coarse-grained bounding-box image regions, limited perception of mathematical content by visual encoders, and dependence on external capabilities for visual modification. The MINT-CoT dataset provides a solid foundation for training multimodal mathematical reasoning models by adaptively interleaving relevant visual tokens within reasoning steps.

提供机构：

香港中文大学多媒体实验室（CUHK MMLab）

创建时间：

2025-06-06

原始信息汇总

MINT-CoT数据集概述

基本信息

数据集名称: MINT-CoT
官方论文: MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning
数据集地址: HuggingFace数据集
模型地址: HuggingFace模型
发布时间: 2025年6月6日

数据集简介

核心目标: 解决多模态领域数学推理中Chain-of-Thought (CoT) 的扩展挑战
创新点:
- 提出MINT-CoT方法，通过Interleave Token动态选择数学图形中的任意形状视觉区域
- 将视觉标记自适应地交织到文本推理步骤中

数据集内容

数据规模: 包含54K数学问题
数据特点:
- 每个推理步骤与标记级别的视觉区域对齐
- 包含严格的数据生成流程

训练策略

第一阶段: 纯文本CoT监督微调 (SFT)
第二阶段: 交织CoT监督微调 (SFT)
第三阶段: 交织CoT强化学习 (RL)

评估方法

评估工具: VLMEvalKit
评估基准: MathVista_MINI
评估模型: Qwen2-VL-7B-Instruct

依赖工具

基础框架: R1-V
训练框架: LLaMA-Factory
辅助工具: Mulberry

搜集汇总

数据集介绍

构建方式

MINT-CoT数据集的构建采用了四步自动化流程，首先从Mulberry-260K数据集中筛选数学问题作为基础文本链式推理（CoT）数据，随后通过网格划分将图像分割为索引区域，结合OCR技术实现文本元素与网格位置的精准映射。关键步骤包括使用GPT-4o提取推理步骤中的核心数学概念词汇，并通过高级多模态大模型将这些词汇与对应的视觉区域进行细粒度对齐，最终形成包含54,000个样本的数据集，每个样本均标注了推理步骤与视觉标记的关联索引。

使用方法

使用该数据集需遵循三阶段渐进式训练策略：首先进行纯文本CoT微调建立基础推理能力；随后通过交织CoT监督微调，联合优化文本推理与视觉标记选择的二元交叉熵损失；最终采用强化学习策略，以答案正确性为奖励信号，引导模型自主探索最优视觉标记交织模式。推理时，模型在生成每个推理步骤前自动插入Interleave Token，通过余弦相似度计算筛选相关视觉标记，实现动态的多模态推理链条构建。

背景与挑战

背景概述

MINT-CoT数据集由香港中文大学多媒体实验室（CUHK MMLab）于2025年提出，旨在解决多模态大语言模型（MLLMs）在数学推理任务中视觉与文本协同推理的难题。该数据集包含54K个数学问题，通过创新的‘交错视觉标记’方法，将细粒度的视觉区域与文本推理步骤在标记级别对齐，突破了传统边界框方法的局限性。其核心研究问题聚焦于如何动态选择任意形状的数学图形区域（如几何线段、坐标等）以增强链式思维（CoT）推理的可解释性，相关成果在MathVista、GeoQA等基准测试中显著提升了34.08%的性能。

当前挑战

该数据集面临三重挑战：1) 领域问题层面，现有方法依赖粗粒度的矩形视觉区域选择，难以捕捉数学图像中高度关联的复杂结构（如几何图形拓扑关系）；2) 构建过程中需克服视觉编码器对数学内容感知不足的缺陷，主流CLIP等模型在自然图像预训练导致数学视觉特征分布偏移；3) 数据标注需设计四阶段自动化流程（网格划分、OCR定位、关键词提取、高级MLLM对齐），确保视觉标记与推理步骤的精确匹配，这对标注一致性和算法鲁棒性提出极高要求。

常用场景

经典使用场景

在数学视觉推理领域，MINT-CoT数据集通过将视觉标记动态嵌入到思维链推理步骤中，为多模态大语言模型提供了细粒度的视觉-文本对齐能力。其经典使用场景包括几何问题求解、代数推理和教科书问答等任务，其中模型需要同时解析数学图像中的符号结构和空间关系。该数据集特别适用于需要结合图表理解与逻辑推导的复杂数学问题，如几何证明题中角度计算或代数应用题中的变量关系分析。

解决学术问题

MINT-CoT数据集有效解决了多模态数学推理中的三个核心学术问题：传统边界框方法对数学图像细粒度结构的捕捉不足、通用视觉编码器对数学内容感知的局限性，以及对外部视觉修改工具的依赖。通过引入可自适应选择任意形状视觉区域的交错标记机制，该数据集显著提升了模型在MathVista、GeoQA等基准上的推理准确率（最高提升34.08%），为视觉-语言模型在数学领域的推理能力建立了新的评估标准。

实际应用

该数据集的实际应用价值体现在智能教育辅助系统的开发中，可自动解析数学题目中的几何图形与代数表达式，为学生提供分步骤的解题指导。在工程领域，其视觉-文本交错推理能力可用于技术图纸的语义解析，辅助完成涉及空间关系的计算任务。此外，金融数据分析中需要结合图表与数值推理的场景也能受益于该技术。

数据集最近研究