SVIP

Name: SVIP
Creator: 浙江大学
Published: 2025-04-09 14:09:40
License: 暂无描述

arXiv2025-04-09 更新2025-04-11 收录

下载链接：

https://github.com/ minghehe-nobug/SVIP

下载链接

链接失效反馈

官方服务：

资源简介：

SVIP数据集是由浙江大学创建的多模态数据集，包含7984个基于程序的CoT训练样本和1934个专家标注的测试样本。数据集涵盖24个任务，支持单/多图像和视频模态。SVIP通过将代码生成和评估转化为相应的CoT步骤和评估，为奖励模型训练提供了一种新的思路。

The SVIP dataset is a multimodal dataset created by Zhejiang University. It contains 7,984 program-based Chain-of-Thought (CoT) training samples and 1,934 expert-annotated test samples. The dataset covers 24 tasks and supports single-image, multi-image and video modalities. By transforming code generation and evaluation into corresponding CoT steps and assessment processes, SVIP provides a novel approach for reward model training.

提供机构：

浙江大学

创建时间：

2025-04-09

搜集汇总

数据集介绍

构建方式

SVIP数据集通过视觉编程技术自动构建，采用逐步生成代码块的方法解决视觉任务，并将代码分析转化为多维度思维链（CoT）评估。具体而言，首先利用最少到最多提示策略生成Python程序，随后通过执行引擎获取中间变量，从相关性、逻辑性和属性三个维度对代码块进行精细评估。最后，将代码执行轨迹转换为自然语言CoT步骤，并标注多维标签，形成训练样本。整个过程无需人工标注，实现了高效、可扩展的数据生成。

特点

SVIP数据集的核心特点在于其细粒度的多维度评估机制。每个思维链步骤均标注了相关性（编译成功与否）、逻辑性（代码逻辑正确性）和属性（外部函数调用准确性）三个维度的标签，为模型提供全面的监督信号。数据集包含7,948个程序衍生的CoT样本（20,000个步骤）用于训练，以及1,934个专业标注的CoT样本（5,509个步骤）用于测试，覆盖24种任务类型，支持单/多图像及视频模态。其独特优势在于首次实现了多模态领域内步骤级、多维度的自动标注，显著提升了奖励模型的评估透明度。

使用方法

SVIP数据集主要用于训练和评估多模态思维链奖励模型。在训练阶段，TriAtt-CoT机制利用数据集的三个维度标签，通过多头注意力层整合不同维度的特征，优化模型对步骤质量的判别能力。在推理阶段，模型可对候选CoT步骤进行多维评分，通过排序规则（优先正确标签数量，次优维度优先级）选择最优推理路径。此外，数据集支持强化学习中的数据清洗、训练信号生成及测试时缩放，用户可通过开源代码加载数据，并按照任务需求微调模型或直接部署预训练奖励模型。

背景与挑战

背景概述

SVIP（Step-level Visual Programming）数据集由浙江大学、南洋理工大学、蚂蚁集团和新加坡国立大学的研究团队于2025年提出，旨在解决多模态大型语言模型（MLLMs）中奖励信号应用的挑战。该数据集通过视觉编程技术自动生成细粒度的思维链（Chain-of-Thought, CoT）奖励模型，将代码生成与分析转化为多维度评估的CoT步骤，从而提升模型在训练和推理阶段的性能。SVIP的核心研究问题在于如何克服传统奖励模型在标注成本、单步奖励依赖和单维评估等方面的局限性，为多模态推理任务提供更透明、可解释的奖励机制。其创新性体现在首次将视觉编程与CoT奖励模型相结合，推动了多模态推理领域的研究进展。

当前挑战

SVIP数据集面临的挑战主要体现在领域问题和构建过程两方面。在领域问题方面，传统多模态奖励模型存在三大缺陷：1) 人工标注CoT及评估的高成本与不可扩展性；2) 过度依赖单步结果奖励，缺乏对中间推理步骤的监督；3) 现有评估框架仅关注单一维度（如准确性），忽视逻辑相关性等关键因素。在构建过程中，研究团队需解决：1) 代码块到自然语言CoT步骤的精准转换；2) 通过程序执行轨迹验证中间变量的可靠性；3) 设计TriAtt-CoT多头注意力机制以协调相关性、逻辑性和属性三个维度的评估冲突。此外，确保生成的20,000个训练步骤与5,509个测试步骤的多样性和代表性也是重要挑战。

常用场景

经典使用场景

SVIP数据集在视觉任务的多模态推理中展现出卓越的应用价值，尤其在需要逐步分解复杂视觉问题的场景中表现突出。通过将视觉编程生成的代码块转化为自然语言的多步推理链（Chain-of-Thought, CoT），SVIP能够为每一步推理提供多维度的评估信号，包括相关性、逻辑性和属性准确性。这一特性使其在视觉问答（VQA）、图像描述生成和复杂视觉推理任务中成为研究者的首选工具。

解决学术问题

SVIP数据集有效解决了多模态大语言模型（MLLMs）领域中的三大核心问题：人工标注成本高、单步奖励信号依赖性强以及评估维度单一。通过自动化的视觉编程方法，SVIP能够生成丰富的多步推理样本，并为每一步提供多维度的评估标签（如逻辑正确性、属性准确性），从而显著提升了模型在训练和推理阶段的透明性和可解释性。此外，SVIP的引入填补了多模态领域缺乏细粒度评估基准的空白，为后续研究提供了可靠的实验基础。

衍生相关工作

SVIP的提出催生了一系列围绕多模态推理优化的研究工作。例如，基于其视觉编程框架的VPD（Visual Program Distillation）通过工具调用蒸馏提升了小模型的推理能力；De-fine方法则进一步将模块化编程与反馈优化结合，强化了代码生成的鲁棒性。此外，TriAtt-CoT注意力机制的创新设计也被应用于其他多任务学习场景，如数学视觉推理基准MathVista和医疗影像分析工具链的优化。这些衍生工作共同推动了多模态推理向更精细化、自动化方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集