VCode

Name: VCode
Creator: 中央南大学
Published: 2025-11-05 02:00:18
License: 暂无描述

arXiv2025-11-05 更新2025-11-06 收录

下载链接：

https://github.com/CSU-JPG/VCode

下载链接

链接失效反馈

官方服务：

资源简介：

VCode是一个多模态编码基准，使用SVG作为符号视觉表示。该数据集涵盖了三个具有挑战性的领域：通用常识、专业学科和视觉感知。数据集包含464个图像-问题对，旨在评估模型是否能够从自然图像中生成SVG代码，并保留其符号结构。数据集的创建过程包括从现有的多模态理解基准中重新利用数据，并对图像进行渲染和评估。VCode的应用领域包括多模态理解和视觉编码，旨在解决语言和视觉编码之间的差距问题。

VCode is a multimodal coding benchmark that adopts SVG as its symbolic visual representation. This dataset encompasses three challenging domains: general common sense, professional disciplines, and visual perception. Comprising 464 image-question pairs, it is designed to assess whether models can generate SVG code from natural images while preserving their symbolic structural integrity. The dataset development process involves repurposing data from existing multimodal understanding benchmarks, followed by image rendering and evaluation. The application domains of VCode cover multimodal understanding and visual coding, with the goal of bridging the gap between linguistic and visual coding.

提供机构：

中央南大学

创建时间：

2025-11-05

原始信息汇总

VCode数据集概述

数据集简介

VCode是一个多模态编码基准数据集，使用SVG作为符号化视觉表示。该数据集将SVG代码作为视觉表示方法，提供完整的图像到SVG到渲染的工作流程工具包。

核心组件

VCode-suite工具包

VCode-suite是一个综合性工具包，自动化完整的图像到SVG到渲染工作流程，包含集成管道和独立模块：

生成模块：img2svg.py、img2text2svg.py、img2svgthinking.py、img2svg-w-visual-tool.py
渲染模块：svg_render_img.py
优化模块：revision.py
过滤模块：filter.py
管道脚本：pipeline.sh、revision_pipeline.sh

数据集构成

数据集包含三个主要评估基准：

MM-Vet：数据位于data/mm-vet/images
CV-Bench：数据位于data/cv-bench/img
MMMU：数据位于data/mmmu/mmmu_dev_processed_single_img_subset

主要功能

生成和渲染SVG

使用pipeline.sh执行完整的图像到SVG到渲染工作流程
支持多种生成模块连接
输出生成SVG和渲染图像

SVG优化

使用revision_pipeline.sh自动化修订和优化过程
基于视觉反馈优化生成的SVG
输出优化后的SVG和渲染图像

评估方法

评估流程

为三个数据集生成图像
运行各数据集的评估脚本：
- evaluation/mm-vet/mmvet_eval.sh
- evaluation/cv-bench/cvbench_eval.sh
- evaluation/mmmu/mmmu_eval.sh

评估指标

使用metrics.py计算数据集指标，支持以下参数：

--folder1：参考图像文件夹路径
--folder2：模型输出文件夹路径
--ckpt：SigLIP模型检查点（默认：google/siglip2-so400m-patch14-384）

技术特性

支持批量处理和模块化实验
提供端到端管道和独立脚本执行
基于API的视觉反馈优化机制
支持多种SVG生成策略

引用信息

bibtex @misc{VCode, title={VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation}, author={Kevin Qinghong Lin and Yuhao Zheng and Hangyu Ran and Dantong Zhu and Dongxing Mao and Linjie Li and Philip Torr and Alex Jinpeng Wang}, year={2025}, eprint={2511.02778}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2511.02778}, }

搜集汇总

数据集介绍

构建方式

在计算机视觉与多模态智能融合的前沿领域中，VCode数据集通过重构现有视觉问答基准构建而成，其核心在于将自然图像转化为可执行的SVG代码表示。该数据集整合了三个代表性领域的图像-问题对：日常常识感知采用MM-Vet的218个实例，专业学科知识筛选自MMMU开发集的146个单图像样本，视觉中心感知则通过分层采样从CV-Bench中抽取100个涵盖空间关系、物体计数等任务的样本，最终形成464对数据单元。这种跨领域构建策略确保了数据在语义层次和任务复杂度上的多样性。

使用方法

该数据集的使用遵循视觉编码到推理验证的闭环流程。研究者首先将输入图像馈入视觉语言模型生成SVG代码，通过渲染引擎转换为矢量图像后，调用预定义的策略模型对渲染结果进行视觉问答测试。评估阶段采用多维度指标：SigLIP分数衡量嵌入空间语义一致性，CodeVQA通过问题回答正确率检验符号保真度，代码令牌长度则评估生成效率。这种以渲染驱动问答的评估机制，为多模态编码研究提供了兼具可解释性与可量化的实验范式。

背景与挑战

背景概述

VCode数据集于2025年由牛津大学、中国科学技术大学、中南大学及微软研究院联合提出，标志着多模态编码研究从语言中心任务向视觉符号化表征的重要转向。该研究团队创新性地采用可缩放矢量图形（SVG）作为视觉符号表征介质，将传统基于像素的图像理解重构为代码生成任务，旨在建立紧凑、可解释且可执行的视觉抽象体系。VCode通过整合通用常识（MM-Vet）、专业学科（MMMU）和视觉感知（CV-Bench）三大领域的464个图像-问题对，推动了视觉推理与代码生成的深度融合，为具身智能和数字环境交互提供了新型研究范式。

当前挑战

VCode需解决视觉符号化编码中的核心难题：在领域问题层面，模型需克服从自然图像到SVG代码的跨模态转换障碍，确保生成代码在渲染后能完整保留原始图像的符号语义，尤其需应对复杂空间关系、物体计数及三维深度推理等视觉密集型任务；在构建过程中，研究团队面临长代码序列生成、视觉细节数值化编码、以及不规则物体边界精确描述等技术瓶颈，为此引入包含迭代修订机制与视觉工具协同的VCoder框架，通过外部检测器提供结构化几何线索，显著提升了符号表征的保真度。

常用场景

经典使用场景

在计算机视觉与多模态智能研究领域，VCode数据集通过将自然图像转换为SVG代码的任务，为评估模型在视觉符号抽象与代码生成方面的能力提供了独特平台。该数据集在通用常识理解、专业学科知识和视觉中心感知三大场景中，要求模型生成能够忠实保留原始图像符号含义的可执行SVG代码，从而推动视觉表示从像素级密集编码向符号级抽象表达的范式转变。

解决学术问题

VCode有效解决了多模态理解中视觉符号抽象能力评估的缺失问题。传统方法多依赖像素级相似度度量，难以评估模型对图像语义结构的深层理解。该数据集通过CodeVQA评估协议，将生成SVG的语义保真度转化为视觉问答任务的准确性，为衡量视觉符号表示的完备性提供了可量化的标准。这种创新评估机制揭示了前沿视觉语言模型在视觉中心编码与语言中心编码之间存在的显著能力差距。

实际应用

在实际应用层面，VCode推动的SVG符号表示技术为多个领域带来革新。在智能教育领域，能够将复杂图表自动转换为可缩放矢量图形，提升教学材料的可访问性；在数字内容创作中，实现从真实场景图像到矢量艺术的高质量转换；在增强现实系统中，为场景理解提供轻量级符号表示。VCoder框架展示的迭代修正与视觉工具协同机制，更为实际部署中的精度提升提供了可行路径。

数据集最近研究