ICC-1M Dataset

github2026-03-12 更新2026-03-14 收录

下载链接：

https://github.com/TongkunGuan/Qwen-CodePercept

下载链接

链接失效反馈

官方服务：

资源简介：

我们构建了一个大规模的数据集，包含超过100万高质量的STEM图像-标题-代码三元组。数据通过三个管道合成：图像再现、图像多样性和立体几何合成。

We constructed a large-scale dataset containing over 1 million high-quality STEM image-caption-code triples. The data is synthesized via three pipelines: image reproduction, image diversity, and stereo geometry synthesis.

创建时间：

2026-02-22

原始信息汇总

CodePercept 数据集概述

数据集基本信息

数据集名称: CodePercept (ICC-1M)
核心内容: 一个大规模、高质量的 STEM（科学、技术、工程和数学）视觉感知数据集，包含超过 100 万个图像-描述-代码三元组。
官方论文: "CodePercept: Code-Grounded Visual STEM Perception for MLLMs" (CVPR 2026)
论文链接: http://arxiv.org/abs/2603.10757

数据集构建与特点

构建方法: 数据通过三种合成管道生成：
1. 图像再现
2. 图像多样性增强
3. 立体几何合成
核心创新: 采用代码作为感知媒介，利用可执行代码提供的精确语义来克服自然语言描述中固有的幻觉和“描述性失语”问题，以对齐 STEM 视觉内容的结构化特性。

数据集用途与关联任务

主要训练任务:
1. 代码接地的描述生成: 将可执行代码视为图像描述的真实标签，以消除现有知识蒸馏方法中的幻觉。
2. STEM 图像到代码的翻译: 促使模型生成重建代码，以减少自然语言描述的模糊性。
评估基准: STEM2Code-Eval 基准，包含 1000 张手动标注的图像，用于通过确定性的、可执行的 Python 代码生成来评估视觉感知。

模型与方法论

基础架构: 基于 Qwen3-VL 架构。
训练范式: 两阶段训练
1. 监督微调: 使用 ICC-1M 三元组联合优化图像描述生成和图像到代码翻译任务。
2. 强化学习: 采用组相对策略优化，专门针对代码生成。奖励机制包括格式奖励（确保有效的 Python 语法）和内容奖励（结合执行成功率、代码级语义等价性和图像级视觉相似性）。

性能表现

在 STEM 推理基准测试中，CodePercept-8B-S1 模型性能优于超大规模模型（如 Qwen2.5-VL-72B），并在与强大的 LLM 求解器配合时接近前沿模型性能。
在 STEM2Code-Eval 基准测试中，CodePercept-8B-R1 模型平均得分达到 63.56，显著超过 Qwen3-VL-8B-Instruct（提升 16.19 分）甚至超大规模模型如 Qwen3-VL-Plus。

引用

如需引用本工作，请使用以下 BibTeX 条目： bibtex @inproceedings{codepercept2026, title={CodePercept: Code-Grounded Visual STEM Perception for MLLMs}, author={Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year={2026} }

搜集汇总

数据集介绍

构建方式

在探索多模态大语言模型于STEM视觉推理领域性能瓶颈的背景下，ICC-1M数据集的构建采用了创新的合成策略。该数据集通过精心设计的三种数据生成管道系统性地创建了超过一百万高质量的图像-描述-代码三元组。具体而言，图像重现管道致力于从现有视觉内容中精确提取并重构结构化信息；图像多样性管道则通过可控的变换增强数据的覆盖范围与泛化能力；而立体几何合成管道专门针对复杂的空间几何图形，生成与之严格对应的可执行代码。这一多管齐下的构建方法确保了数据在规模、质量与语义对齐上的卓越性，为模型提供了坚实且丰富的代码锚定感知素材。

特点

ICC-1M数据集的核心特征在于其开创性地将可执行代码确立为视觉感知的基石，从而在STEM领域实现了范式转移。数据集中的每个样本均由图像、自然语言描述和能够精确重建该图像视觉内容的Python代码构成，这种三元组结构提供了无歧义的、确定性的语义真值。与依赖自然语言描述的传统数据集相比，可执行代码从根本上避免了描述性失语和幻觉问题，其内在的结构化特性与STEM视觉对象（如图表、几何图形、工程图纸）的严谨逻辑天然契合。这一特征使得该数据集不仅是规模庞大的资源库，更是推动模型实现精确、可验证视觉感知的关键驱动力。

使用方法

该数据集主要服务于代码接地的多模态大语言模型的训练与评估。在训练阶段，模型通过监督微调任务，同时学习基于图像的代码生成与代码接地的描述生成，利用数据集中代码作为描述的真实标签，有效规避了知识蒸馏中常见的幻觉问题。在强化学习阶段，数据集为策略优化提供了基础，奖励机制着重于评估生成代码的语法有效性与执行后的视觉重建相似度。对于研究社区而言，ICC-1M数据集可作为预训练或微调的关键资源，用以提升模型在STEM视觉任务上的感知能力，其衍生的评估基准STEM2Code-Eval则为模型感知性能提供了超越传统问题解决准确率的、基于代码执行的可验证评测标准。

背景与挑战

背景概述

在人工智能领域，多模态大语言模型（MLLMs）在科学、技术、工程和数学（STEM）视觉推理任务中的表现常受限于感知能力不足。为深入探究这一瓶颈，研究团队于2026年提出了ICC-1M数据集，作为CVPR会议论文《CodePercept: Code-Grounded Visual STEM Perception for MLLMs》的核心组成部分。该数据集由Tongkun Guan等学者构建，旨在通过可执行代码作为感知媒介，精准捕捉STEM视觉内容的结构化语义。其创建基于三种合成管道——图像重现、图像多样化和立体几何合成，生成了超过一百万高质量的图像-描述-代码三元组，为模型训练提供了大规模、可验证的基准数据，推动了视觉感知与代码生成交叉领域的研究进展。

当前挑战

ICC-1M数据集致力于解决STEM视觉推理中感知瓶颈的核心挑战，即传统方法因自然语言描述的模糊性和幻觉现象导致的推理误差。具体而言，数据集的构建面临多重困难：首先，合成高质量、多样化的STEM图像需要复杂的算法设计，以确保视觉内容与代码语义的精确对齐；其次，生成可执行代码作为真实标注，需克服代码语法有效性、执行成功率以及视觉相似性等多维度约束，这增加了数据标注的复杂性和成本。此外，评估模型感知能力时，需超越传统问题解决准确率的代理指标，建立以确定性代码生成为基础的评估体系，这对基准的可靠性和泛化性提出了更高要求。

常用场景

经典使用场景

在视觉STEM感知领域，ICC-1M数据集作为大规模图像-描述-代码三元组集合，其经典使用场景集中于训练多模态大语言模型进行代码驱动的视觉理解。通过将可执行代码作为感知媒介，该数据集能够引导模型从STEM图像中生成精确的代码表示，从而直接支持几何图形重建、图表解析以及科学可视化分析等任务。这种以代码为桥梁的方法，有效弥合了自然语言描述与结构化视觉内容之间的语义鸿沟，为模型提供了可验证且无歧义的感知基础。

衍生相关工作

围绕ICC-1M数据集，已衍生出一系列经典研究工作，其中最具代表性的是CodePercept框架及其配套的STEM2Code-Eval基准。该框架提出了代码即感知的新范式，并基于数据集开发了代码锚定的描述生成与图像到代码翻译任务。后续研究可在此基础上探索代码增强的跨模态预训练、可微分渲染与代码的联合优化，以及面向特定学科（如数学、物理）的专用代码感知模型。这些工作共同推动了以代码为中介的视觉理解技术路线的发展。

数据集最近研究