ImgCode-8.6M

Name: ImgCode-8.6M
Creator: 香港中文大学多媒体实验室（MMLab）
Published: 2025-05-16 01:59:21
License: 暂无描述

arXiv2025-05-16 更新2025-05-17 收录

下载链接：

https://github.com/mathllm/MathCoder

下载链接

链接失效反馈

官方服务：

资源简介：

ImgCode-8.6M 是目前最大的图像-代码数据集，由香港中文大学多媒体实验室（MMLab）的研究团队开发。该数据集通过图像到代码的模型 FigCodifier 生成，能够将数学相关的图像转换为详细的代码，进而渲染新的图像。ImgCode-8.6M 包含了 860 万个图像-代码对，这些数据对通过迭代训练的方式生成，确保了数据的准确性和多样性，为大型多模态模型的数学推理能力提供了强有力的支持。

ImgCode-8.6M is currently the largest image-code dataset, developed by the research team of the Multimedia Laboratory (MMLab) at The Chinese University of Hong Kong. This dataset is generated via the image-to-code model FigCodifier, which can convert math-related images into detailed code that can render new images. ImgCode-8.6M contains 8.6 million image-code pairs, which are generated through iterative training to ensure the accuracy and diversity of the data, providing robust support for the mathematical reasoning capabilities of large multimodal models.

提供机构：

香港中文大学多媒体实验室（MMLab）

创建时间：

2025-05-16

原始信息汇总

MathCoder数据集概述

数据集基本信息

名称: MathCoder
相关论文:
- MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning
- MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning

数据集和模型

数据集:
- MathCodeInstruct Dataset
- MathCodeInstruct Dataset-Plus
模型:
- Base Model: Llama-2:
  - MathCoder-L-7B
  - MathCoder-L-13B
- Base Model: Code Llama:
  - MathCoder-CL-7B
  - MathCoder-CL-34B
- MathCoder-VL Models:

训练数据

训练数据集: MathCodeInstruct
数据特点: 每个解决方案交织了自然语言、代码和执行结果。

方法介绍

方法: 生成新颖且高质量的数据集，包含数学问题及其基于代码的解决方案。
目标: 通过代码建模和推导数学方程，增强语言模型的数学推理能力。

性能表现

MATH数据集: 45.2%
GSM8K数据集: 83.9%
其他成就:
- 在GSM8K和MATH数据集上超越ChatGPT-3.5和PaLM-2。
- 在竞赛级MATH数据集上超越GPT-4。

使用方式

模型部署: 使用Text Generation Inference (TGI)工具包部署。
推理: 提供推理脚本，支持自定义IP和端口。
评估: 提供评估脚本，用于评估预测答案。

引用

bibtex @inproceedings{ wang2025mathcodervl, title={MathCoder-{VL}: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning}, author={Ke Wang and Junting Pan and Linda Wei and Aojun Zhou and Weikang Shi and Zimu Lu and Han Xiao and Yunqiao Yang and Houxing Ren and Mingjie Zhan and Hongsheng Li}, booktitle={The 63rd Annual Meeting of the Association for Computational Linguistics}, year={2025}, url={https://openreview.net/forum?id=nuvtX1imAb} }

bibtex @inproceedings{ lu2025mathcoder2, title={MathCoder2: Better Math Reasoning from Continued Pretraining on Model-translated Mathematical Code}, author={Zimu Lu and Aojun Zhou and Ke Wang and Houxing Ren and Weikang Shi and Junting Pan and Mingjie Zhan and Hongsheng Li}, booktitle={The Thirteenth International Conference on Learning Representations}, year={2025}, url={https://openreview.net/forum?id=1Iuw1jcIrf} }

bibtex @inproceedings{ wang2024mathcoder, title={MathCoder: Seamless Code Integration in {LLM}s for Enhanced Mathematical Reasoning}, author={Ke Wang and Houxing Ren and Aojun Zhou and Zimu Lu and Sichun Luo and Weikang Shi and Renrui Zhang and Linqi Song and Mingjie Zhan and Hongsheng Li}, booktitle={The Twelfth International Conference on Learning Representations}, year={2024}, url={https://openreview.net/forum?id=z8TW0ttBPp} }

bibtex @inproceedings{ zhou2024solving, title={Solving Challenging Math Word Problems Using {GPT}-4 Code Interpreter with Code-based Self-Verification}, author={Aojun Zhou and Ke Wang and Zimu Lu and Weikang Shi and Sichun Luo and Zipeng Qin and Shaoqing Lu and Anya Jia and Linqi Song and Mingjie Zhan and Hongsheng Li}, booktitle={The Twelfth International Conference on Learning Representations}, year={2024}, url={https://openreview.net/forum?id=c8McWs4Av0} }

搜集汇总

数据集介绍

构建方式

ImgCode-8.6M数据集的构建采用了模型在环（model-in-the-loop）的迭代开发方法，通过图像到代码的转换模型FigCodifier，将数学相关的图像转化为能够重新渲染新图像的详细代码。具体流程包括收集300万数学相关图像，利用初始训练的模型生成代码并渲染新图像，形成高质量的⟨ImageC, Code⟩对。通过自动化的数据引擎，最终构建了包含860万图像-代码对的数据集。这一过程中还涉及严格的代码验证、去重和质量过滤，确保了数据的准确性和多样性。

特点

ImgCode-8.6M是目前最大的图像-代码数据集，其独特之处在于通过代码生成的图像与原始代码之间建立了严格的跨模态对齐关系，确保了数据的精确性和完整性。数据集涵盖了广泛的数学图形类型，包括几何图形、统计图表等，且通过TikZ和Python两种代码形式的转换，进一步丰富了数据的多样性。此外，数据集的高质量和错误率低的特点，使其成为训练大型多模态模型进行数学推理的理想资源。

使用方法

ImgCode-8.6M数据集主要用于增强大型多模态模型（LMMs）在数学相关跨模态对齐方面的能力。通过图像到代码的中期训练（image-to-code mid-training），模型能够更准确地理解和生成数学图形。此外，该数据集还可用于合成新的数学图形，进一步扩展多模态数学问题的构建。在实际应用中，研究人员可以利用该数据集训练模型，提升其在几何问题解决等数学推理任务中的表现，同时也可作为生成多样化数学问题的基础数据源。

背景与挑战

背景概述

ImgCode-8.6M是由香港中文大学多媒体实验室（MMLab）于2025年提出的跨模态数学推理数据集，旨在解决大型多模态模型（LMMs）在数学视觉推理中的关键瓶颈。传统自然语言图像描述数据集（如LAION-5B）主要关注自然场景，而忽略了数学图形中对于解题至关重要的几何细节和符号信息。研究团队创新性地采用代码作为跨模态对齐的监督信号，通过开发图像到代码的转换模型FigCodifier，构建了包含860万对图像-代码样本的数据集。该数据集通过代码与图像的严格对应关系，确保了模态对齐的精确性，为提升模型在几何证明、函数分析等复杂数学任务中的表现提供了高质量训练资源。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决数学视觉推理中几何图形细节丢失、符号系统复杂等难题，传统图像描述方法难以准确表达角度、坐标系等数学特征；在构建过程中，需克服代码生成准确性（初始TikZ代码生成成功率仅46.5%）、多模态对齐验证（确保代码渲染图像与原始图像的几何一致性）以及数据多样性平衡（覆盖K12到arXiv文献的19个数学分支）等技术难点。此外，合成新图像时需保持数学正确性，避免因温度参数设置不当导致图形语义失真。

常用场景

经典使用场景

ImgCode-8.6M数据集在跨模态数学推理领域展现了卓越的应用价值，尤其在几何问题求解和复杂数学图形理解方面表现突出。该数据集通过将数学图形与生成代码精确对齐，为大型多模态模型提供了丰富的训练素材，显著提升了模型在解析几何图形、函数曲线等数学视觉元素时的准确性和泛化能力。在MathVista几何问题子集上的实验表明，基于该数据集训练的模型能够超越GPT-4o和Claude 3.5 Sonnet等先进模型。

解决学术问题

该数据集有效解决了多模态数学推理中的两大核心挑战：数学相关视觉与文本细节的精准对齐，以及多样化数学图形的规模化生成。通过代码生成的图像与原始图形保持严格对应关系，确保了跨模态数据的精确性，弥补了传统自然语言标注在数学细节描述上的不足。此外，其自动化的数据生成机制突破了人工设计图形在多样性和规模上的限制，为数学推理研究提供了高质量的基准数据。

衍生相关工作

基于ImgCode-8.6M衍生的MathCoder-VL模型在多项数学推理基准测试中创下开源模型的新纪录。相关研究团队进一步构建了MM-MathInstruct-3M指令微调数据集，其中包含300万条配有合成图像的多模态数学问题。这些工作推动了MAVIS、Math-LLaVA等后续研究在几何问题生成和视觉数学推理方面的创新，形成了完整的跨模态数学推理技术生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集