M2C-INSTRUCT
收藏arXiv2025-07-12 更新2025-07-15 收录
下载链接:
https://github.com/MCEVAL/MMCoder
下载链接
链接失效反馈官方服务:
资源简介:
M2C-INSTRUCT是一个大规模的多语言多模态代码生成数据集,包含超过1310万个样本,涵盖50多种编程语言。数据集分为两个阶段,第一阶段包含1290万个问题,第二阶段包含168K个问题。M2C-INSTRUCT旨在通过整合视觉设计输入(如UML图和流程图)与文本指令,来提高代码生成的准确性和架构一致性。
M2C-INSTRUCT is a large-scale multilingual multimodal code generation dataset containing over 13.1 million samples spanning more than 50 programming languages. The dataset is divided into two phases: the first phase includes 12.9 million questions, while the second phase contains 168 thousand questions. M2C-INSTRUCT aims to enhance the accuracy and architectural consistency of code generation by integrating visual design inputs such as UML diagrams and flowcharts with textual instructions.
提供机构:
北京航空航天大学, 阿里巴巴集团, M-A-P, 南京大学
创建时间:
2025-07-12
原始信息汇总
MMCoder数据集概述
基本信息
- 数据集名称: MMCoder
- 官方仓库: https://github.com/MCEVAL/MMCoder
- 代码许可证: MIT
- 数据许可证: CC-BY-SA-4.0
数据集内容
- 主要功能: 多语言多模态软件开发者代码生成
- 特点: 集成了视觉设计输入(UML图和流程图)与文本指令,以增强代码生成能力
相关资源
- 基准数据: https://huggingface.co/datasets/Multilingual-Multimodal-NLP/MMEval
- 指令数据: https://huggingface.co/datasets/Multilingual-Multimodal-NLP/MMc-Instruct-Stage2
- 预训练模型: https://huggingface.co/Multilingual-Multimodal-NLP/MM-Coder-7B
- 评估环境: https://github.com/MCEVAL/MMCode(即将推出)
研究背景
- 支持数据集: M2C-INSTRUCT(多样化的多模态指令调优数据集)
- 评估基准: M2-EVAL(针对文本代码生成在捕捉视觉工作流方面的局限性而设计的新基准)
搜集汇总
数据集介绍

构建方式
M2C-INSTRUCT数据集的构建采用了分阶段的方法,首先从GitHub收集大规模多语言代码数据,并通过Qwen2.5-Coder生成1290万对问答数据作为基础。随后,利用Evol-CodeAlpaca和OSS-Instruct数据集进一步合成多模态图表问题。数据集分为两个阶段:第一阶段通过Pygments工具将代码段转换为图像模态,增强模型的视觉代码理解能力;第二阶段采用三步合成法,生成基于文本描述和关联图表的代码问题,确保关键信息仅存在于图表中。
特点
M2C-INSTRUCT数据集具有规模大、多语言和多模态的特点,包含超过1310万个样本,涵盖50多种编程语言。数据集分为两个阶段,第一阶段包含1290万个问题及4230万张图像,第二阶段包含16.8万个问题及相应图像。数据集特别强调视觉工作流任务,通过统一建模语言(UML)图表和流程图作为视觉输入,提升代码生成的准确性和架构对齐能力。其独特之处在于将代码段转换为图像模态,以及生成必须结合图表才能解决的代码问题。
使用方法
该数据集主要用于训练和评估多语言多模态代码生成模型。研究人员可使用M2C-INSTRUCT进行两阶段微调:第一阶段在大规模多模态代码相关指令样本上进行预训练,建立基础的视觉理解和信息提取能力;第二阶段在高质量的视觉工作流代码生成语料上进行微调,增强模型的图像理解和指令遵循能力。数据集配套的M2EVAL基准测试可用于评估模型在多语言多模态编程任务中的表现,特别关注模型在视觉信息利用、指令遵循和高级编程概念掌握方面的能力。
背景与挑战
背景概述
M2C-INSTRUCT是由北京航空航天大学、阿里巴巴集团、M-A-P和南京大学的研究团队于2025年提出的多语言多模态代码生成数据集,旨在解决当前大型语言模型(LLMs)在代码生成任务中忽视视觉辅助信息(如UML图和流程图)的问题。该数据集包含超过1310万个样本,涵盖50多种编程语言,支持视觉工作流(Visual Workflow)与文本指令的融合,显著提升了代码生成的准确性和架构对齐能力。M2C-INSTRUCT的推出为多模态代码生成领域提供了重要的数据支持,推动了工业级编程自动化的研究进展。
当前挑战
M2C-INSTRUCT面临的挑战主要体现在两个方面:领域问题挑战方面,当前代码生成模型在精确捕捉视觉信息、遵循复杂指令以及应用高级编程概念(如设计模式)时仍存在显著不足;构建过程挑战方面,数据集需要处理多语言代码与视觉元素的复杂对齐问题,包括跨模态数据合成(如将代码转换为图表)、确保视觉-文本语义一致性,以及构建涵盖多样化编程范式和设计模式的评估基准。此外,保持13.1M样本的标注质量与多语言一致性也对数据工程提出了极高要求。
常用场景
经典使用场景
在软件工程领域,M2C-INSTRUCT数据集为多语言多模态代码生成任务提供了丰富的训练资源。该数据集通过整合UML图和流程图等视觉设计输入与文本指令,显著提升了代码生成的准确性与架构对齐能力。其经典应用场景包括基于视觉工作流的代码生成任务,研究人员可利用该数据集训练模型理解并实现复杂的多模态软件规范。
实际应用
在工业级编程实践中,M2C-INSTRUCT支持开发智能编程助手系统,可自动将包含UML设计图的系统架构文档转化为可执行代码。教育领域可用于构建可视化编程教学工具,通过流程图与代码的双向转换辅助编程初学者理解算法逻辑。企业级应用包括加速原型开发流程,实现从设计图到多语言代码库的自动化转换。
衍生相关工作
基于M2C-INSTRUCT衍生的M2-CODER模型已成为多模态代码生成的标杆工作,其7B参数版本性能媲美70B级模型。该数据集还催生了M2EVAL评估基准,推动Design2Code、Web2Code等后续研究在UI代码生成领域的发展。相关技术被ChartCoder等图表转代码项目借鉴,形成了跨模态编程的完整方法论体系。
以上内容由遇见数据集搜集并总结生成



