MINT-CoT

github2025-06-10 更新2025-06-11 收录

下载链接：

https://github.com/xinyan-cxy/MINT-CoT

下载链接

链接失效反馈

官方服务：

资源简介：

MINT-CoT数据集包含54K数学问题，每个推理步骤都与视觉区域在标记级别对齐，并附带严格的数据生成流程。

The MINT-CoT dataset contains 54K mathematical problems, where each reasoning step is aligned with visual regions at the token level, and it is accompanied by a rigorous data generation pipeline.

创建时间：

2025-05-24

原始信息汇总

MINT-CoT数据集概述

数据集基本信息

名称: MINT-CoT (Mathematical INterleaved Tokens for Chain-of-Thought)
论文链接: arXiv论文
数据集链接: HuggingFace数据集
模型链接: HuggingFace模型

数据集背景

研究目标: 解决多模态数学推理中视觉与文本结合的挑战。
关键创新: 提出MINT-CoT方法，通过Interleave Token动态选择数学图形中的任意形状视觉区域。

数据集内容

数据规模: 包含54K数学问题。
数据特点: 每个推理步骤与视觉区域在token级别对齐。
数据生成: 采用严格的数据生成流程。

数据集应用

训练策略:
1. 文本-only CoT SFT
2. 交错式CoT SFT
3. 交错式CoT RL
评估工具: 使用VLMEvalKit进行模型评估。

数据集获取与使用

下载方式: bash huggingface-cli repo download xy06/MINT-CoT-Dataset --local-dir ./data
文件结构:
- MINT-CoT_interleave_sft_54k.json
- images.zip

引用格式

latex @article{chen2025mint, title={MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning}, author={Chen, Xinyan and Zhang, Renrui and Jiang, Dongzhi and Zhou, Aojun and Yan, Shilin and Lin, Weifeng and Li, Hongsheng}, journal={arXiv preprint arXiv:2506.05331}, year={2025} }

搜集汇总

数据集介绍

构建方式

在数学推理领域，多模态思维链技术面临视觉信号与文本推理融合的挑战。MINT-CoT数据集通过严谨的构建流程，收集了54,000道数学题目，采用动态视觉标记技术将任意形状的数学图形区域与文本推理步骤在标记级别精确对齐。该数据集通过三阶段生成管道实现：首先提取原始数学问题中的视觉元素，随后通过专业标注工具进行区域分割与语义关联，最终由数学教育专家验证视觉-文本对的逻辑一致性。

特点

该数据集突破了传统多模态推理的局限，其核心创新在于实现了细粒度的视觉-文本交错标记。不同于现有工作依赖矩形视觉区域或独立视觉编码，MINT-CoT支持任意几何形状的数学符号与公式的动态嵌入，每个视觉标记都能精准对应特定推理步骤。数据集涵盖代数、几何等多元数学分支，所有视觉内容均经过数学语义校验，确保与文本推理链形成严格的逻辑映射关系。

使用方法

研究者可通过HuggingFace平台获取预处理的JSON格式数据集及配套图像包。使用前需配置Python3.11环境并安装PyTorch等依赖库，数据集加载后可直接接入LLaMA-Factory训练框架。典型应用包含三阶段训练流程：初始阶段进行纯文本思维链微调，第二阶段启用视觉-文本交错监督学习，最终阶段采用强化学习优化多模态推理能力。评估时建议使用VLMEvalKit工具包，替换特定模型文件后即可执行标准化数学视觉推理测试。

背景与挑战

背景概述

MINT-CoT数据集由Xinyan Chen等研究人员于2025年提出，旨在解决多模态数学推理中的关键挑战。该数据集由54K个数学问题组成，每个问题的推理步骤都与视觉区域在标记级别上对齐，为数学推理中的视觉-文本交互提供了精细的标注。MINT-CoT的创新之处在于引入了数学交错标记（Mathematical INterleaved Tokens），通过动态选择数学图形中的任意形状视觉区域，实现了视觉标记与文本推理步骤的自适应交错。这一工作建立在链式思维（Chain-of-Thought）推理的基础上，推动了多模态数学推理领域的发展。

当前挑战

MINT-CoT数据集面临的挑战主要体现在两个方面：领域问题方面，现有的多模态数学推理方法存在对粗粒度图像区域的依赖、视觉编码器对数学内容感知有限以及对外部视觉修改能力的依赖等问题；构建过程方面，数据集需要精确对齐每个推理步骤与视觉区域，这对数据生成管道的设计提出了严格要求，包括视觉区域的精确标注和视觉-文本交互的高质量对齐。这些挑战需要通过创新的模型架构和训练策略来解决。

常用场景

经典使用场景

在数学推理领域，MINT-CoT数据集通过引入视觉标记与文本推理步骤的交织，为多模态数学问题的解决提供了新的研究范式。该数据集特别适用于需要结合图像信息进行复杂数学推理的场景，如几何证明、函数图像分析等。通过动态选择数学图形中的任意形状视觉区域，MINT-CoT能够更精细地捕捉图像中的关键信息，从而提升推理的准确性和可解释性。

衍生相关工作

MINT-CoT数据集的发布促进了多模态推理领域的多项研究。基于该数据集，研究者开发了MINT-CoT-7B模型，并通过三阶段训练策略（文本推理微调、交织推理微调和强化学习）进一步优化了模型性能。相关工作还包括对视觉标记动态选择机制的深入探索，以及多模态推理模型的评估框架的完善。

数据集最近研究