ICC-1M
收藏arXiv2026-03-11 更新2026-03-13 收录
下载链接:
https://github.com/TongkunGuan/Qwen-CodePercept
下载链接
链接失效反馈官方服务:
资源简介:
ICC-1M是由阿里巴巴Qwen团队与上海交通大学等机构联合构建的大规模STEM领域多模态数据集,包含100万条图像-描述-代码三元组。该数据集通过可执行Python代码作为感知媒介,采用图像再现、多样性生成和立体几何合成三种创新管道构建,精确捕捉STEM视觉元素的空间关系和数值特征。数据集特别针对数学、物理等学科中的复杂几何图形和公式推导场景,旨在解决多模态大模型在STEM领域视觉感知模糊和描述失真问题,为代码驱动的视觉理解提供基准训练资源。
提供机构:
上海交通大学; 阿里巴巴集团·Qwen团队; 北京理工大学; 清华大学; 浙江大学
创建时间:
2026-03-11
原始信息汇总
CodePercept 数据集概述
数据集基本信息
- 数据集名称: CodePercept (ICC-1M)
- 官方存储库: https://github.com/TongkunGuan/Qwen-CodePercept
- 关联论文: "CodePercept: Code-Grounded Visual STEM Perception for MLLMs" (CVPR 2026)
- 论文链接: http://arxiv.org/abs/2603.10757
数据集核心内容
- 规模: 包含超过100万个高质量的STEM(科学、技术、工程、数学)图像-描述-代码三元组。
- 数据合成方法: 通过三种流程合成:
- 图像重现
- 图像多样性增强
- 立体几何合成
数据集目的与创新
- 核心目的: 解决多模态大语言模型在STEM视觉推理中的感知瓶颈问题。
- 核心创新: 引入“代码作为感知媒介”的新范式,利用可执行代码为STEM视觉提供精确的语义对齐,克服自然语言描述中的幻觉和“描述性失语”问题。
关联的评估基准
- 基准名称: STEM2Code-Eval
- 规模: 包含1000张人工标注的图像。
- 评估方式: 通过确定性的、可执行的Python代码生成来评估视觉感知能力,超越了传统的解题准确率代理指标。
模型训练方法
- 基础架构: 基于Qwen3-VL架构。
- 训练范式: 两阶段训练
- 监督微调: 使用ICC-1M三元组联合优化图像描述生成和图像到代码翻译任务。
- 强化学习: 采用组相对策略优化,专门针对代码生成。奖励机制包括:
- 格式奖励:确保有效的Python语法。
- 内容奖励:结合执行成功率、代码级语义等价性(通过GPT-4o评估)和图像级视觉相似度。
性能表现
- 在STEM推理基准测试中: CodePercept-8B-S1模型性能优于Qwen2.5-VL-72B等超大规模模型,并在搭配强大的LLM求解器时接近前沿模型性能。
- 在STEM2Code-Eval基准测试中: CodePercept-8B-R1模型平均得分为63.56,显著超过Qwen3-VL-8B-Instruct(提升16.19分)甚至Qwen3-VL-Plus等超大规模模型。
引用信息
bibtex @inproceedings{codepercept2026, title={CodePercept: Code-Grounded Visual STEM Perception for MLLMs}, author={Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year={2026} }
搜集汇总
数据集介绍
构建方式
在科学、技术、工程和数学(STEM)视觉推理领域,感知能力被视为多模态大语言模型(MLLMs)的关键瓶颈。为系统性地增强模型的视觉感知能力,ICC-1M数据集通过将可执行代码确立为感知媒介,构建了规模达一百万的高质量图像-描述-代码三元组。其构建过程采用三条互补的管道协同完成:图像复现管道将现有STEM图像转化为可执行的Python代码;图像多样化管道从种子图像中抽象出STEM概念,并在保持语义有效性的前提下,于多样化的视觉上下文中重新实例化,以生成结构新颖的图像-代码对;针对当前MLLMs在生成立体几何代码方面的固有缺陷,专门的立体几何合成管道则通过参数化模板生成复杂的立体几何图像及其对应代码。为确保数据质量,构建过程还实施了统一的三阶段质量控制,从图像质量、代码质量及图像-代码一致性三个维度进行严格筛选,最终形成了坚实可靠的训练基础。
特点
ICC-1M数据集的核心特点在于其开创性地以可执行代码作为感知的基石,为STEM视觉理解提供了精确且可验证的语义表征。该数据集不仅规模庞大,更通过代码锚定的范式,有效规避了传统知识蒸馏方法中固有的幻觉问题。其三元组结构——图像、基于代码生成的准确描述以及解释性重构代码——构成了语义等价的互补表示,为模型训练提供了多模态的监督信号。具体而言,代码作为结构化描述,能够精准编码空间关系与定量细节,克服了自然语言在描述复杂数学视觉内容时的模糊性。同时,数据集覆盖了数学、物理、化学及电气工程等多个STEM子领域,并通过多样化和模板化合成策略,确保了内容的广泛性与概念的严谨性,为全面、深入地提升MLLMs的视觉感知能力提供了不可或缺的资源。
使用方法
ICC-1M数据集旨在通过两种代码锚定的训练任务,系统性地增强多模态大语言模型在STEM领域的视觉感知能力。第一种任务是代码锚定的描述生成,该任务利用可执行代码作为真实标签来生成图像描述,从而消除AI生成描述中的事实性错误。第二种任务是STEM图像到代码的翻译,直接训练模型根据图像生成可执行的重构代码,以规避自然语言描述固有的歧义性。在实际使用中,研究者可以利用数据集中的图像-描述-代码三元组,对基础MLLMs(如Qwen3-VL系列)进行有监督的微调,联合优化图像描述和图像到代码翻译两个目标。此后,可进一步针对代码生成任务应用强化学习,通过定义格式奖励与内容奖励(包括执行成功率、代码级和图像级相似度评估),激励模型生成语法正确、可执行且能高保真重构视觉内容的代码。这一流程使得模型不仅能理解图像的语义,更能掌握其精确的结构化表征,为后续的STEM视觉推理任务奠定坚实的感知基础。
背景与挑战
背景概述
ICC-1M数据集由上海交通大学与阿里巴巴集团Qwen团队于2026年联合构建,旨在解决多模态大语言模型在科学、技术、工程和数学领域视觉推理中的感知瓶颈问题。该数据集包含超过一百万组图像-描述-代码三元组,通过将可执行代码作为感知媒介,为模型提供精确的结构化语义信息,从而增强对STEM视觉内容的理解能力。其核心研究在于探索代码作为感知基础的新范式,以克服自然语言描述在复杂空间关系和数值精度上的固有模糊性,为多模态模型的感知能力提升提供了重要数据支撑。
当前挑战
ICC-1M数据集致力于解决多模态大语言模型在STEM视觉感知中的核心挑战,即模型难以准确理解图像中的空间结构、数量关系和几何属性。构建过程中面临多重困难:首先,从现有STEM图像生成可执行代码时,需确保代码能精确复现视觉内容,这对模型的代码生成与空间推理能力提出了极高要求;其次,在数据合成阶段,需通过图像复制、多样性生成和实体几何合成三条并行的管线来扩展数据规模,同时维持STEM概念的有效性;此外,数据质量控制需严格验证图像与代码的一致性,避免因生成错误导致语义失真。这些挑战共同指向了在复杂视觉场景中实现可靠、可验证感知的深层难题。
常用场景
经典使用场景
在科学、技术、工程和数学(STEM)领域的视觉推理研究中,ICC-1M数据集作为代码感知范式的核心载体,其经典使用场景聚焦于增强多模态大语言模型(MLLMs)的视觉感知能力。该数据集通过构建超过一百万组图像-描述-代码三元组,为模型提供了从复杂STEM图像中生成可执行Python代码的训练基础。具体而言,数据集支持两种互补的训练任务:代码锚定的描述生成,将可执行代码作为图像描述的真实标签,以消除传统知识蒸馏方法中的幻觉问题;以及STEM图像到代码的转换,直接训练模型生成重建代码,以规避自然语言在描述精确空间关系和数值细节时的模糊性。这些任务共同推动模型在数学图表、物理示意图、化学结构等STEM视觉内容上实现像素级精确理解。
衍生相关工作
围绕ICC-1M数据集,研究社区衍生出了一系列经典工作,进一步拓展了代码感知范式在跨模态推理中的应用边界。其中,STEM2Code-Eval基准测试作为数据集的直接衍生物,首次提出了通过代码生成质量来直接评估模型视觉感知能力的方法,为后续研究提供了可靠的评估标准。在模型训练方面,基于该数据集开发的CodePercept框架展示了代码锚定训练与强化学习结合的有效性,启发了后续如Code-RL、Perception-R1等工作对感知与推理解耦训练的深入探索。同时,该数据集也促进了跨领域迁移研究,例如将代码感知思想应用于UI设计图表生成、科学图表理解等特定领域,推动了多模态代码生成任务的泛化能力提升。
数据集最近研究
最新研究方向
在科学、技术、工程和数学(STEM)视觉推理领域,多模态大语言模型(MLLMs)的感知能力已成为制约其性能的关键瓶颈。近期研究通过系统性的缩放分析揭示,相较于推理能力的扩展,增强视觉感知能力能带来更显著的性能提升。基于这一洞察,前沿工作聚焦于将可执行代码确立为一种强大的感知媒介,以应对自然语言在描述复杂STEM图像时固有的模糊性和幻觉问题。具体而言,研究者构建了大规模图像-描述-代码三元组数据集ICC-1M,并提出了两种互补的训练范式:代码锚定的描述生成和STEM图像到代码的翻译。这些方法通过可验证的代码生成来确保视觉理解的精确性和完整性,从而为模型提供了结构化和确定性的监督信号。此外,新引入的评估基准STEM2Code-Eval通过要求模型生成可执行的重建代码,直接衡量其综合视觉感知能力,超越了传统基于问题解决准确率的间接评估方式。这一研究方向不仅为提升MLLMs在STEM领域的感知能力提供了系统性的解决方案,也推动了以代码为中介的、可验证的多模态学习新范式的发展。
相关研究论文
- 1CodePercept: Code-Grounded Visual STEM Perception for MLLMs上海交通大学; 阿里巴巴集团·Qwen团队; 北京理工大学; 清华大学; 浙江大学 · 2026年
以上内容由遇见数据集搜集并总结生成



