ICC-1M Dataset

github2026-02-22 更新2026-02-26 收录

下载链接：

https://github.com/TongkunGuan/CodePercept

下载链接

链接失效反馈

官方服务：

资源简介：

我们构建了一个大规模的数据集，包含超过1百万个高质量的STEM Image-Caption-Code三元组。数据通过三种管道合成：图像再现、图像多样性和立体几何合成。

We constructed a large-scale dataset containing over 1 million high-quality STEM Image-Caption-Code triplets. The dataset was synthesized via three pipelines: image rendering, image diversity generation, and stereoscopic geometry synthesis.

创建时间：

2026-02-22

原始信息汇总

CodePercept 数据集概述

数据集基本信息

数据集名称: CodePercept (ICC-1M)
官方存储库地址: https://github.com/TongkunGuan/CodePercept
关联论文: "CodePercept: Code-Grounded Visual STEM Perception for MLLMs" (CVPR 2026)

数据集核心内容

规模: 包含超过100万个高质量的STEM（科学、技术、工程、数学）图像-描述-代码三元组。
数据合成方法: 通过三种合成流程构建：
1. 图像重现
2. 图像多样性增强
3. 立体几何合成
数据形式: 每个数据样本为（图像，自然语言描述，可执行代码）的三元组。

数据集目的与特点

核心目的: 解决多模态大语言模型在STEM视觉推理中的感知瓶颈问题。
关键理念: 提出“代码即感知”的新范式，利用可执行代码作为精确的感知媒介，以克服自然语言描述固有的幻觉和“描述性失语”问题。
应用场景: 用于训练和评估模型在STEM领域的视觉感知与代码生成能力。

关联的评估基准

基准名称: STEM2Code-Eval
规模: 包含1000张手动标注的图像。
评估方式: 通过确定性的、可执行的Python代码生成来评估视觉感知能力，超越了传统的以问题解决准确率为代理的评估方法。

数据使用与模型训练

训练任务:
1. 代码锚定的描述生成: 将可执行代码作为图像描述的真实标签，以消除现有知识蒸馏方法中存在的幻觉。
2. STEM图像到代码的翻译: 促使模型生成重建代码，以缓解自然语言描述的模糊性。
基础模型: 基于Qwen3-VL架构。
训练范式: 采用两阶段训练：
1. 监督微调阶段: 使用ICC-1M三元组联合优化图像描述生成和图像到代码翻译任务。
2. 强化学习阶段: 采用针对代码生成的组相对策略优化，奖励机制包括格式奖励（确保有效的Python语法）和内容奖励（结合执行成功率、代码级语义等价性和图像级视觉相似性）。

引用信息

如需引用本数据集及相关工作，请使用以下BibTeX条目： bibtex @inproceedings{codepercept2026, title={CodePercept: Code-Grounded Visual STEM Perception for MLLMs}, author={Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year={2026} }

搜集汇总

数据集介绍

构建方式

在探索多模态大语言模型于科学、技术、工程与数学领域视觉推理瓶颈的背景下，ICC-1M数据集的构建采用了创新的合成策略。该数据集通过三条核心流水线系统生成超过一百万高质量的图像-描述-代码三元组：图像再现流水线专注于从现有STEM视觉内容中精确重构代码表示；图像多样性流水线旨在扩充视觉场景的覆盖范围，增强数据的泛化能力；立体几何合成流水线则专门针对复杂几何结构，生成具有精确数学表征的代码。这种多管齐下的合成方法确保了数据在规模与质量上的平衡，为模型提供了丰富且结构化的感知基础。

特点

ICC-1M数据集的核心特点在于其以可执行代码作为感知媒介的范式。与依赖自然语言描述的传统数据集不同，该数据集中的代码提供了精确且无歧义的语义，天然契合STEM视觉内容的结构化本质。这一设计有效克服了自然语言描述中常见的幻觉与“描述性失语”问题，为模型学习提供了确定性更强的监督信号。数据集的规模庞大，覆盖了广泛的STEM视觉场景，其三元组结构——图像、描述与代码——共同构成了一个可验证、可执行的感知单元，推动了视觉感知评估从间接的解题准确率向直接的代码生成能力转变。

使用方法

在模型训练与应用中，ICC-1M数据集主要服务于两项核心任务。其一是代码接地的描述生成，即将可执行代码视为图像描述的真实标签，指导模型生成与代码语义严格对齐的视觉描述，从而规避知识蒸馏中常见的失真问题。其二是STEM图像到代码的翻译，直接引导模型根据输入图像生成能够重构该视觉内容的Python代码，这一任务强化了模型对视觉结构的精确感知与形式化表达能力。数据集支撑了从监督微调到强化学习的完整训练范式，并通过专门的基准测试（如STEM2Code-Eval）为模型的代码生成质量提供了可执行、可量化的评估标准。

背景与挑战

背景概述

在人工智能领域，多模态大语言模型（MLLMs）在科学、技术、工程和数学（STEM）视觉推理任务中的表现常受限于感知能力不足或推理瓶颈。为深入探究此问题，研究团队于2026年通过CVPR会议论文《CodePercept: Code-Grounded Visual STEM Perception for MLLMs》提出了ICC-1M数据集。该数据集由Tongkun Guan、Zhibo Yang等学者及合作机构构建，核心研究聚焦于利用可执行代码作为感知媒介，以解决自然语言描述在结构化STEM视觉内容中存在的幻觉与模糊性问题。通过系统化的规模分析，研究揭示了感知能力是当前STEM视觉推理的主要瓶颈，ICC-1M的创建旨在推动代码驱动感知范式的发展，为多模态模型在STEM领域的应用提供高质量数据支持，对计算机视觉与人工智能交叉研究产生了重要影响。

当前挑战

ICC-1M数据集面临的挑战主要体现在两个方面：在领域问题层面，该数据集旨在解决多模态大语言模型在STEM视觉推理中的感知缺陷，传统方法依赖自然语言描述，容易产生幻觉与语义歧义，而代码作为精确的结构化表达，需确保其与复杂视觉内容（如几何图形、科学图表）的严格对齐，这对模型的代码生成与执行一致性提出了极高要求。在构建过程中，挑战包括合成超过一百万高质量STEM图像-描述-代码三元组数据，需通过图像重现、图像多样性与立体几何合成等多种流水线实现，同时保证代码的可执行性、语义准确性以及视觉相似性，这涉及大规模数据生成、噪声过滤与多模态对齐的技术难题，对数据集的可靠性与泛化能力构成严峻考验。

常用场景

经典使用场景

在视觉STEM感知领域，ICC-1M数据集为多模态大语言模型提供了图像-描述-代码三元组的训练基础。该数据集通过图像再现、图像多样化和实体几何合成三种合成管道构建，其核心应用场景在于训练模型从STEM视觉内容中生成可执行的Python代码。这一过程不仅强化了模型对科学图表、工程图纸和数学公式的结构化理解，还使得模型能够将视觉信息转化为精确的编程指令，从而为后续的推理任务奠定坚实的感知基础。

解决学术问题

ICC-1M数据集直接应对了多模态大语言模型在STEM视觉推理中感知瓶颈的学术挑战。传统方法常因自然语言描述的模糊性和幻觉现象而受限，该数据集通过引入代码作为感知媒介，提供了确定性的语义对齐，有效解决了模型在描述复杂科学视觉内容时的“描述性失语”问题。其意义在于将视觉感知评估从间接的问题解决准确率代理转向可直接验证的代码生成，推动了视觉-代码跨模态研究范式的演进。

衍生相关工作

围绕ICC-1M数据集，已衍生出如CodePercept模型框架及其配套的STEM2Code-Eval基准测试等一系列经典工作。这些工作深化了代码接地感知的理论，并催生了基于强化学习的代码生成优化方法，如群组相对策略优化。同时，该数据集也激励了后续研究探索更广泛的视觉-代码转换任务，为多模态模型在结构化视觉理解方面的能力评估设立了新的标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集