SAV-Caption

Name: SAV-Caption
Creator: Google DeepMind
Published: 2025-08-30 01:43:58
License: 暂无描述

arXiv2025-08-30 更新2025-09-03 收录

下载链接：

https://github.com/google-deepmind/vocap

下载链接

链接失效反馈

官方服务：

资源简介：

SAV-Caption 数据集是 VoCap 模型的训练数据集，由 SAV 数据集的分割掩码和自动生成的对象描述组成。SAV-Caption 训练集包含约 50,000 个视频，每个视频都有一个与之对应的对象描述。SAV-Caption 验证集包含 155 个视频，每个视频的每个对象都有三个不同的手动描述。该数据集旨在解决视频对象分割和描述问题，并为视频对象分割和描述任务提供了新的基准。

The SAV-Caption dataset, the training dataset for the VoCap model, consists of segmentation masks derived from the SAV dataset and automatically generated object descriptions. The SAV-Caption training set contains approximately 50,000 videos, each paired with a corresponding object description. The SAV-Caption validation set includes 155 videos, with three distinct manual descriptions for each object in every video. This dataset is designed to tackle the tasks of video object segmentation and description, and establishes a novel benchmark for these tasks.

提供机构：

Google DeepMind

创建时间：

2025-08-30

原始信息汇总

数据集概述

基本信息

数据集名称: vocap
来源论文: VoCap: Video Object Captioning and Segmentation from Any Prompt
论文链接: https://arxiv.org/abs/2508.21809
数据内容: 包含SAV数据集中对象的伪标注和人工标注描述

数据组成

验证集标注

文件: sav_caption_val_human.csv
标注方式: 人工标注
标注详情: 每个标注对象由三位不同标注人员分别提供描述
数据特点: 大多数video_id与object_id组合重复出现三次

训练集标注

文件: sav_caption_train_automatic.csv（14MB）
标注方式: 自动生成（使用Gemini 1.5 Pro模型）
生成方法: 基于真实标注突出显示感兴趣对象后生成以对象为中心的描述

数据格式

文件类型: CSV文件（带表头）
字段组成: video_id, object_id, caption（逗号分隔）
数据记录: 每行包含视频ID、对象ID和对应的描述文本

引用信息

bibtex @inproceedings{uijings25vocap, title={{VoCap}: Video Object Captioning and Segmentation from Any Prompt}, author={Jasper Uijlings and Xingyi Zhou and Xiuye Gu and Arsha Nagrani and Anurag Arnab and Alireza Fathi and David Ross and Cordelia Schmid}, booktitle={ArXiv}, year={2025}, }

许可信息

软件许可: Apache License 2.0
许可链接: https://www.apache.org/licenses/LICENSE-2.0
其他材料许可: Creative Commons Attribution 4.0 International License (CC-BY)
许可链接: https://creativecommons.org/licenses/by/4.0/legalcode
免责声明: 非Google官方产品，按"原样"提供，不提供任何明示或暗示的担保

搜集汇总

数据集介绍

构建方式

SAV-Caption数据集的构建基于SAV Manual数据集的高质量分割掩码标注，通过创新的伪标注流程生成对象中心描述。具体采用Gemini 1.5 Pro Vision模型，对视频中目标对象添加红色轮廓标记并模糊背景，结合结构化文本提示引导模型生成包含对象类别、视觉属性及动态行为的描述。该流程确保了标注的准确性与语义丰富性，最终在50,000个视频中生成约17万条自动化标注，显著降低了人工标注成本。

使用方法

SAV-Caption适用于训练和评估视频对象分割与描述联合模型，如VoCap。使用时需加载视频帧及其对应的掩码-文本对，输入模型进行端到端训练。评估阶段可通过计算CIDEr等指标量化描述生成质量，同时结合掩码IoU指标衡量分割精度。数据集支持以掩码、文本框或文本作为输入提示，输出兼具分割结果与对象描述，适用于半监督视频对象分割、参考表达式分割及对象描述生成等多任务场景。

背景与挑战

背景概述

SAV-Caption数据集由Google DeepMind研究团队于2025年构建，旨在推动视频对象理解领域的发展。该数据集基于SAV大规模分割数据集，通过融合伪标签生成技术与人工标注验证，为视频对象提供细粒度时空掩码与语义描述。其核心研究在于解决视频中对象的精确定位与语义描述的联合建模问题，为多模态视频理解任务提供了关键数据支撑，显著提升了视频生成、自动驾驶等应用的性能基准。

当前挑战

该数据集主要解决视频对象描述与分割的联合任务挑战，包括对象动态属性建模、复杂场景下的遮挡处理以及多模态提示的灵活响应。构建过程中面临标注成本高昂的难题，通过视觉提示技术与大语言模型生成伪标签以扩大规模，但需克服背景干扰、小对象描述偏差以及语义一致性保障等问题，同时依赖人工验证确保评估集的可靠性。

常用场景

经典使用场景

在视频理解领域，SAV-Caption数据集为多模态提示驱动的视频对象分割与描述任务提供了关键支持。该数据集最经典的使用场景在于训练和评估能够同时处理文本、边界框或掩码提示的模型，实现从任意输入模态生成时空掩码和对象中心描述。研究者通常利用其丰富的标注信息，开发统一模型以应对半监督视频对象分割、参考表达式分割和对象描述生成等多种任务，显著提升了视频中细粒度对象理解的灵活性。

解决学术问题

SAV-Caption有效解决了视频对象理解中语义属性与空间定位的联合建模问题。该数据集通过提供大规模伪标注和人工验证的掩码-描述对，克服了传统方法依赖固定类别词汇和有限标注的局限，支持模型学习开放词汇的对象描述和动态行为刻画。其意义在于首次实现了视频对象描述与分割任务的统一评估基准，推动了多模态提示学习、噪声标签利用和长视频时序建模等核心研究方向的发展。

实际应用

在实际应用层面，SAV-Caption支撑的技术已广泛应用于智能视频编辑、自动驾驶场景理解和野生动物行为分析等领域。例如，在视频内容生成中，模型可根据用户提供的文本或轮廓提示精准定位并描述特定对象，实现动态内容的智能提取与重组；在自动驾驶系统中，该技术能够识别并详细描述交通场景中的关键物体及其行为变化，提升环境感知的语义丰富度。

数据集最近研究