five

SVIP

收藏
arXiv2025-04-09 更新2025-04-11 收录
下载链接:
https://github.com/ minghehe-nobug/SVIP
下载链接
链接失效反馈
官方服务:
资源简介:
SVIP数据集是由浙江大学创建的多模态数据集,包含7984个基于程序的CoT训练样本和1934个专家标注的测试样本。数据集涵盖24个任务,支持单/多图像和视频模态。SVIP通过将代码生成和评估转化为相应的CoT步骤和评估,为奖励模型训练提供了一种新的思路。

The SVIP dataset is a multimodal dataset created by Zhejiang University. It contains 7,984 program-based Chain-of-Thought (CoT) training samples and 1,934 expert-annotated test samples. The dataset covers 24 tasks and supports single-image, multi-image and video modalities. By transforming code generation and evaluation into corresponding CoT steps and assessment processes, SVIP provides a novel approach for reward model training.
提供机构:
浙江大学
创建时间:
2025-04-09
搜集汇总
数据集介绍
main_image_url
构建方式
SVIP数据集通过视觉编程技术自动构建,采用逐步生成代码块的方法解决视觉任务,并将代码分析转化为多维度思维链(CoT)评估。具体而言,首先利用最少到最多提示策略生成Python程序,随后通过执行引擎获取中间变量,从相关性、逻辑性和属性三个维度对代码块进行精细评估。最后,将代码执行轨迹转换为自然语言CoT步骤,并标注多维标签,形成训练样本。整个过程无需人工标注,实现了高效、可扩展的数据生成。
特点
SVIP数据集的核心特点在于其细粒度的多维度评估机制。每个思维链步骤均标注了相关性(编译成功与否)、逻辑性(代码逻辑正确性)和属性(外部函数调用准确性)三个维度的标签,为模型提供全面的监督信号。数据集包含7,948个程序衍生的CoT样本(20,000个步骤)用于训练,以及1,934个专业标注的CoT样本(5,509个步骤)用于测试,覆盖24种任务类型,支持单/多图像及视频模态。其独特优势在于首次实现了多模态领域内步骤级、多维度的自动标注,显著提升了奖励模型的评估透明度。
使用方法
SVIP数据集主要用于训练和评估多模态思维链奖励模型。在训练阶段,TriAtt-CoT机制利用数据集的三个维度标签,通过多头注意力层整合不同维度的特征,优化模型对步骤质量的判别能力。在推理阶段,模型可对候选CoT步骤进行多维评分,通过排序规则(优先正确标签数量,次优维度优先级)选择最优推理路径。此外,数据集支持强化学习中的数据清洗、训练信号生成及测试时缩放,用户可通过开源代码加载数据,并按照任务需求微调模型或直接部署预训练奖励模型。
背景与挑战
背景概述
SVIP(Step-level Visual Programming)数据集由浙江大学、南洋理工大学、蚂蚁集团和新加坡国立大学的研究团队于2025年提出,旨在解决多模态大型语言模型(MLLMs)中奖励信号应用的挑战。该数据集通过视觉编程技术自动生成细粒度的思维链(Chain-of-Thought, CoT)奖励模型,将代码生成与分析转化为多维度评估的CoT步骤,从而提升模型在训练和推理阶段的性能。SVIP的核心研究问题在于如何克服传统奖励模型在标注成本、单步奖励依赖和单维评估等方面的局限性,为多模态推理任务提供更透明、可解释的奖励机制。其创新性体现在首次将视觉编程与CoT奖励模型相结合,推动了多模态推理领域的研究进展。
当前挑战
SVIP数据集面临的挑战主要体现在领域问题和构建过程两方面。在领域问题方面,传统多模态奖励模型存在三大缺陷:1) 人工标注CoT及评估的高成本与不可扩展性;2) 过度依赖单步结果奖励,缺乏对中间推理步骤的监督;3) 现有评估框架仅关注单一维度(如准确性),忽视逻辑相关性等关键因素。在构建过程中,研究团队需解决:1) 代码块到自然语言CoT步骤的精准转换;2) 通过程序执行轨迹验证中间变量的可靠性;3) 设计TriAtt-CoT多头注意力机制以协调相关性、逻辑性和属性三个维度的评估冲突。此外,确保生成的20,000个训练步骤与5,509个测试步骤的多样性和代表性也是重要挑战。
常用场景
经典使用场景
SVIP数据集在视觉任务的多模态推理中展现出卓越的应用价值,尤其在需要逐步分解复杂视觉问题的场景中表现突出。通过将视觉编程生成的代码块转化为自然语言的多步推理链(Chain-of-Thought, CoT),SVIP能够为每一步推理提供多维度的评估信号,包括相关性、逻辑性和属性准确性。这一特性使其在视觉问答(VQA)、图像描述生成和复杂视觉推理任务中成为研究者的首选工具。
解决学术问题
SVIP数据集有效解决了多模态大语言模型(MLLMs)领域中的三大核心问题:人工标注成本高、单步奖励信号依赖性强以及评估维度单一。通过自动化的视觉编程方法,SVIP能够生成丰富的多步推理样本,并为每一步提供多维度的评估标签(如逻辑正确性、属性准确性),从而显著提升了模型在训练和推理阶段的透明性和可解释性。此外,SVIP的引入填补了多模态领域缺乏细粒度评估基准的空白,为后续研究提供了可靠的实验基础。
衍生相关工作
SVIP的提出催生了一系列围绕多模态推理优化的研究工作。例如,基于其视觉编程框架的VPD(Visual Program Distillation)通过工具调用蒸馏提升了小模型的推理能力;De-fine方法则进一步将模块化编程与反馈优化结合,强化了代码生成的鲁棒性。此外,TriAtt-CoT注意力机制的创新设计也被应用于其他多任务学习场景,如数学视觉推理基准MathVista和医疗影像分析工具链的优化。这些衍生工作共同推动了多模态推理向更精细化、自动化方向发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作