Multimodal Coding Dataset (MCD)
收藏arXiv2025-08-14 更新2025-08-15 收录
下载链接:
https://huggingface.co/datasets/lingjie23/MultimodalCodingDataset
下载链接
链接失效反馈官方服务:
资源简介:
MCD是一个大规模、高质量的指令微调数据集,包含598k个样本,用于多模态代码生成任务。数据集由四个主要部分组成:增强的HTML代码、图表图像代码对、图像增强的代码问答对和算法代码。这些数据来自网页截图、GitHub上的Python matplotlib代码、StackOverflow以及LeetCode等算法编码数据集。MCD旨在解决现有多模态模型在代码生成能力上的不足,为多模态代码生成提供高质量的数据支持。
MCD is a large-scale, high-quality instruction-tuning dataset containing 598k samples for multimodal code generation tasks. It consists of four main components: augmented HTML code, chart image-code pairs, image-enhanced code question-answer pairs, and algorithmic code. The data is sourced from web screenshots, Python matplotlib code on GitHub, StackOverflow, and algorithmic coding datasets such as LeetCode. MCD aims to address the shortcomings of current multimodal models in code generation capabilities, providing high-quality data support for multimodal code generation.
提供机构:
微软研究院
创建时间:
2025-08-14
原始信息汇总
Multimodal Coding Dataset (MCD) 数据集概述
📌 数据集简介
- 名称: Multimodal Coding Dataset (MCD)
- 用途: 用于训练和评估多模态代码生成模型
- 规模: 包含598k高质量样本
- 领域: HTML生成、图表转代码、图像增强问答、算法问题
- 相关论文: VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models
📂 数据集文件
- mcd_598k.json: JSON元数据,包含
images、messages和category - mcd_images.zip: JSON文件中引用的所有图像
📊 数据集统计
| 领域 | 样本数量 | 描述 |
|---|---|---|
| HTML | 200k | 增强且视觉吸引人的网页代码 |
| Chart | 210k | 来自真实世界和合成来源的图表图像-代码对 |
| QA | 59k | 带有说明性图像的StackOverflow问答 |
| Algorithm | 129k | 来自多个来源的算法编码问题 |
| 总计 | 598k |
💾 数据加载方式
python from datasets import load_dataset dataset = load_dataset("lingjie23/MultimodalCodingDataset")
🏗 数据集构建
- 来源: 从多个来源收集和整理多模态编码任务
- 图像类型: 渲染的图表、UI截图和问题图
- 文本格式: 采用OpenAI聊天格式,支持多轮交互
数据结构
每个条目包含:
- images: 一个或多个相关图像(例如图表、UI截图)
- messages: 用于代码生成的OpenAI格式对话数据
- category: 任务类别(HTML、chart、QA、algorithm)
示例
json { "images": ["mcd_images/chart_images/92.png"], "messages": [ { "content": "<image> You are an expert Python developer who specializes in writing matplotlib code based on a given chart." } ], "category": "chart" }
📜 引用
bibtex @article{jiang2025viscodex, title={VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models}, author={Lingjie Jiang and Shaohan Huang and Xun Wu and Yixia Li and Dongdong Zhang and Furu Wei}, journal={arXiv preprint arXiv:2508.09945}, year={2025} }
搜集汇总
数据集介绍

构建方式
Multimodal Coding Dataset (MCD) 的构建过程采用了多源数据融合的策略,从四个主要领域精心筛选和优化数据样本。首先,通过网页截图生成高质量HTML代码,并采用图像驱动的方法增强其美学和结构完整性;其次,从GitHub收集Python matplotlib脚本,经过多阶段过滤和重写,形成图表图像-代码对;再次,从StackOverflow爬取带有图像的问答对,经过严格的清洗和优化;最后,整合来自多个算法竞赛平台的编程问题,确保数据集的多样性和实用性。整个构建过程强调数据的质量和适用性,最终形成了包含598k样本的大规模数据集。
特点
MCD数据集的特点在于其多样性和高质量。数据集涵盖了前端开发(HTML、CSS)、数据可视化(图表生成)、算法问题解决以及实际编程问答等多个领域,确保了广泛的适用性。每个数据样本都经过严格的筛选和优化,例如图表代码对的执行验证和美学评分,以及问答对的语义清晰性检查。此外,数据集还通过去重处理避免了与评估基准的数据污染,进一步提升了其科学性和可靠性。这种多模态、多领域的特性使得MCD成为训练和评估多模态代码生成模型的理想选择。
使用方法
MCD数据集的使用方法主要包括模型训练和评估两个主要场景。在训练阶段,研究人员可以通过监督微调(Supervised Fine-Tuning)的方式,利用数据集中的图像-代码对和问答样本,优化多模态大语言模型的代码生成能力。评估阶段则可通过Design2Code、ChartMimic等基准测试,检验模型在UI设计转代码、图表生成等任务上的表现。数据集中的算法问题和StackOverflow问答对也可用于模型的核心推理能力和实际编程问题解决能力的测试。使用时需注意数据的分域处理,例如前端开发和数据科学领域可能需要不同的评估指标。
背景与挑战
背景概述
Multimodal Coding Dataset (MCD) 是由微软研究院等机构的研究团队于2025年推出的多模态代码生成基准数据集,旨在解决视觉与文本模态融合的代码生成任务。该数据集包含59.8万条高质量样本,涵盖HTML代码、图表图像-代码对、图像增强的StackOverflow问答以及算法问题四大领域,为多模态大语言模型(MLLMs)的指令微调提供了全面支持。MCD的创建填补了现有数据在视觉语义对齐与代码功能性验证方面的空白,推动了UI设计转代码、数据可视化生成等实际开发场景的技术进步。
当前挑战
MCD需解决两大核心挑战:领域问题层面,多模态代码生成要求模型同时解析视觉元素(如UI布局、图表结构)并生成语法正确的代码,现有模型常出现视觉理解与编程知识割裂的问题;构建过程中,数据需平衡真实性与多样性,例如从GitHub采集的Matplotlib代码需经过多轮清洗以修复非执行脚本,而网页截图转HTML需通过Playwright渲染验证以避免布局失真。此外,评估基准InfiBench-V需确保视觉上下文对解题的必要性,避免文本单独可解的伪多模态问题。
常用场景
经典使用场景
Multimodal Coding Dataset (MCD) 在视觉与代码生成的多模态任务中展现出卓越的应用价值。该数据集通过整合高质量的HTML代码、图表图像-代码对、图像增强的StackOverflow问答以及算法问题,为研究者提供了丰富的多模态编码样本。在视觉代码生成任务中,MCD被广泛用于训练和评估多模态大语言模型(MLLMs),特别是在将视觉输入转换为功能性代码的场景中,如从UI设计图生成HTML代码或从数据图表生成Python脚本。
解决学术问题
MCD解决了多模态代码生成领域中的关键学术问题。首先,它填补了视觉理解与代码生成之间的鸿沟,为模型提供了同时处理视觉和文本输入的能力。其次,数据集的大规模和多样性使得模型能够学习到更广泛的编码模式和视觉语义关联。此外,MCD支持的任务范围广泛,从基础的算法问题到复杂的视觉-代码转换任务,为研究多模态编码能力提供了全面的基准。
衍生相关工作
MCD的推出催生了一系列相关研究工作。例如,VisCodex框架通过模型合并技术整合了视觉语言模型和代码生成模型,显著提升了多模态代码生成的能力。此外,基于MCD的评估基准InfiBench-V为多模态编程问题的评估提供了标准化工具。其他衍生工作还包括ChartCoder和Design2Code等,这些研究进一步拓展了多模态代码生成的应用场景和技术边界。
以上内容由遇见数据集搜集并总结生成



