MMathCoT-1M, DualMath-1.1M

Name: MMathCoT-1M, DualMath-1.1M
Creator: 清华大学, 字节跳动
Published: 2025-01-09 02:49:41
License: 暂无描述

arXiv2025-01-09 更新2025-01-14 收录

下载链接：

https://ursa-math.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

MMathCoT-1M是由清华大学和字节跳动联合创建的高质量多模态数学推理指令微调数据集，包含100万条数据。该数据集通过CoT蒸馏、轨迹格式重写和格式统一的三模块合成策略生成，旨在提升多模态大语言模型在数学推理中的表现。数据集内容涵盖几何问题、数学应用题和表格问答等任务，数据来源包括Multimath、MAVIS、PUMA-VarsityTutors和MathV-360K等开源数据集。DualMath-1.1M是一个自动生成的过程注释数据集，包含110万条数据，专注于解释和逻辑推理，用于进一步提升模型在测试时的推理能力。这些数据集的应用领域主要集中在多模态数学推理，旨在解决现有模型在复杂数学问题中推理能力不足的问题。

MMathCoT-1M is a high-quality multimodal mathematical reasoning instruction fine-tuning dataset jointly developed by Tsinghua University and ByteDance, consisting of 1 million data instances. This dataset is generated through a three-module synthesis strategy encompassing Chain-of-Thought (CoT) distillation, trajectory format rewriting and format unification, with the goal of improving the mathematical reasoning performance of multimodal large language models. The dataset covers tasks including geometry problems, mathematical word problems and table-based question answering, and its data sources are open-source datasets such as Multimath, MAVIS, PUMA-VarsityTutors and MathV-360K. DualMath-1.1M is an automatically generated procedural annotation dataset with 1.1 million data entries, which focuses on explanation and logical reasoning, and is designed to further enhance the reasoning ability of models during inference. The application scope of these datasets is primarily centered on multimodal mathematical reasoning, aiming to address the inadequate reasoning capabilities of existing models when tackling complex mathematical problems.

提供机构：

清华大学, 字节跳动

创建时间：

2025-01-09

搜集汇总

数据集介绍

构建方式

MMathCoT-1M数据集的构建采用了三模块合成策略，包括CoT蒸馏、轨迹格式重写和格式统一。首先，从现有的开源数学数据集中收集多模态数学训练数据，涵盖几何问题、数学应用题和表格问答等任务。随后，利用Gemini-1.5-Flash-002模型进行CoT路径蒸馏，生成高质量的推理轨迹。最后，通过格式统一和过滤，确保数据的一致性和高质量，最终形成了包含100万条指令微调数据的MMathCoT-1M数据集。

特点

MMathCoT-1M数据集的特点在于其高质量的多模态数学推理轨迹。数据集不仅涵盖了广泛的数学任务，还通过CoT蒸馏和格式统一确保了推理过程的逻辑性和一致性。此外，数据集中的每条数据都经过严格的验证，确保推理轨迹的正确性和完整性。这使得MMathCoT-1M成为训练多模态大语言模型进行数学推理的理想选择。

使用方法

MMathCoT-1M数据集主要用于多模态大语言模型的指令微调。通过使用该数据集，模型可以学习到复杂的数学推理过程，从而在测试时表现出更高的推理精度。具体使用方法包括将数据集输入模型进行训练，并通过微调提升模型在几何问题、数学应用题等任务上的表现。此外，该数据集还可用于生成过程监督数据，进一步提升模型的推理能力。

背景与挑战

背景概述

MMathCoT-1M和DualMath-1.1M数据集是由清华大学和字节跳动的研究团队于2025年提出的，旨在解决多模态数学推理中的链式思维（Chain-of-Thought, CoT）推理问题。随着大语言模型（LLMs）在数学推理中的应用日益广泛，CoT推理被证明能够显著提升模型的推理能力。然而，现有的多模态数学推理数据集缺乏高质量的CoT训练数据，导致模型在推理过程中难以实现高精度。为此，研究团队提出了一个三模块合成策略，包括CoT蒸馏、轨迹格式重写和格式统一，生成了高质量的CoT推理指令微调数据集MMathCoT-1M。此外，为了进一步提升模型的推理能力，团队还开发了DualMath-1.1M数据集，专注于解释和逻辑的过程注释生成。这些数据集的推出为多模态数学推理领域的研究提供了重要的数据支持，推动了模型在复杂数学问题上的表现。

当前挑战

MMathCoT-1M和DualMath-1.1M数据集在构建和应用过程中面临多重挑战。首先，多模态数学推理本身具有高度复杂性，模型不仅需要处理文本信息，还需准确理解视觉信息，如几何图形和图表。这种跨模态的信息融合增加了推理的难度，尤其是在处理几何问题时，模型容易出现视觉幻觉或逻辑不一致。其次，数据集的构建过程中，高质量CoT数据的稀缺性是一个主要瓶颈。现有的开源数据集大多缺乏详细的推理步骤，导致模型在训练时难以捕捉完整的推理过程。此外，生成过程注释数据时，如何确保逻辑正确性和视觉准确性也是一个挑战。研究团队通过引入蒙特卡洛树搜索（MCTS）和错误定位技术，解决了部分问题，但仍需进一步优化数据生成策略，以提升模型的推理精度和泛化能力。

常用场景

经典使用场景

MMathCoT-1M和DualMath-1.1M数据集主要用于多模态数学推理任务，特别是在大语言模型（LLMs）和多模态大语言模型（MLLMs）中的链式思维（Chain-of-Thought, CoT）推理。这些数据集通过提供高质量的CoT推理轨迹，帮助模型在复杂的数学问题中进行逐步推理，尤其是在几何、代数和统计等领域。经典的使用场景包括几何问题的求解、数学应用题的多模态推理以及图表数据的逻辑分析。

衍生相关工作

基于MMathCoT-1M和DualMath-1.1M数据集，衍生出了许多经典的研究工作。例如，URSA-7B模型通过在这些数据集上进行微调，实现了在多模态数学推理任务中的最先进性能。此外，URSA-RM-7B模型作为验证器，进一步提升了模型在推理过程中的轨迹选择和错误修正能力。这些工作不仅推动了多模态数学推理领域的发展，还为未来的研究提供了强大的基础模型和数据支持。

数据集最近研究