SAV Caption Dataset

github2025-09-05 更新2025-09-10 收录

下载链接：

https://github.com/google-deepmind/vocap

下载链接

链接失效反馈

官方服务：

资源简介：

该页面包含SAV数据集中对象的伪标题和人工创建的标题，用于VoCap论文。具体包括：对于SAV验证集，由人工标注者为每个标注对象提供标题，每个对象由三个不同的标注者标注；对于SAV训练集，通过Gemini 1.5 Pro生成以对象为中心的标题

This page contains pseudo-titles and human-generated titles for objects in the SAV dataset, prepared for the VoCap paper. Specifically: For the SAV validation set, human annotators provided titles for each annotated object, with each object being annotated by three distinct annotators; For the SAV training set, object-centric titles were generated via Gemini 1.5 Pro.

创建时间：

2025-09-05

原始信息汇总

vocap 数据集概述

数据集来源

该数据集为论文《VoCap: Video Object Captioning and Segmentation from Any Prompt》中使用的SAV数据集的伪标注和人工标注字幕。

数据集内容

验证集标注：SAV验证集中每个标注对象均由三名不同标注人员提供人工描述字幕
训练集标注：SAV训练集通过Gemini 1.5 Pro模型基于真实标注生成以对象为中心的自动字幕

数据格式

提供两个CSV文件：

sav_caption_val_human.csv：验证集人工标注
sav_caption_train_automatic.csv（14MB）：训练集自动生成标注

每行包含video_id、object_id、caption（逗号分隔）。验证集中大多数video_id、object_id对重复三次，对应三名标注人员的标注结果。

引用信息

@inproceedings{uijings25vocap, title={{VoCap}: Video Object Captioning and Segmentation from Any Prompt}, author={Jasper Uijlings and Xingyi Zhou and Xiuye Gu and Arsha Nagrani and Anurag Arnab and Alireza Fathi and David Ross and Cordelia Schmid}, booktitle={ArXiv}, year={2025}, }

许可信息

软件部分：Apache License 2.0（https://www.apache.org/licenses/LICENSE-2.0）
其他材料：Creative Commons Attribution 4.0 International License（CC-BY）（https://creativecommons.org/licenses/by/4.0/legalcode）
免责声明：非Google官方产品

搜集汇总

数据集介绍

构建方式

在视频对象描述领域，SAV Caption Dataset的构建采用了双轨策略。验证集部分由人工标注者精心撰写，每个标注对象均获得三位独立标注者的描述，确保了文本的多样性与准确性。训练集则借助Gemini 1.5 Pro模型生成对象中心化描述，通过高亮真实标注对象作为输入，实现了大规模高质量伪标注的自动化生产。

特点

该数据集的核心特点体现在其异构标注来源的融合设计。人工标注部分蕴含了丰富的语义细节与语境理解，而自动生成部分则提供了规模化的对象中心化描述。数据以CSV格式组织，明确区分验证集与训练集来源，其中验证集条目通过三重标注结构呈现，为模型评估提供了多角度参考基准。

使用方法

研究者可通过解析CSV文件中的视频标识符、对象标识符及描述文本三元组接入数据集。验证集支持基于多人工标注的稳健性评估，训练集适用于监督学习中的描述生成任务。数据使用需遵循Apache 2.0与CC-BY双许可协议，确保学术应用与开源共享的合规性。

背景与挑战

背景概述

SAV Caption Dataset由Google LLC研究团队于2025年推出，作为《VoCap: Video Object Captioning and Segmentation from Any Prompt》研究的核心数据支撑。该数据集聚焦于视频对象描述生成任务，旨在推动计算机视觉领域对动态场景中多模态理解的发展。通过结合人工标注与自动化生成技术，该数据集为视频对象 captioning 提供了高质量的语言-视觉对齐样本，显著提升了模型在复杂场景下的语义解析能力。

当前挑战

该数据集致力于解决视频对象描述生成中的语义对齐难题，其核心挑战在于如何准确捕捉动态对象的时空特征并生成连贯的语义描述。构建过程中面临双重挑战：一是人工标注需协调多名标注者对同一对象的一致性描述，确保标注质量；二是自动化生成依赖Gemini 1.5 Pro模型，需克服视觉-语言模态差异导致的描述偏差问题。

常用场景

经典使用场景

在计算机视觉与自然语言处理的交叉领域，SAV Caption Dataset为视频对象描述任务提供了重要支撑。该数据集通过人工标注与自动生成相结合的方式，为视频中的特定对象构建丰富的文本描述，典型应用于训练和评估对象级视频描述模型，推动细粒度视频理解研究的发展。

实际应用

在实际应用层面，该数据集支撑的技术可广泛应用于智能视频检索、无障碍视觉辅助系统及自动驾驶场景理解等领域。基于对象中心的描述能力使得系统能够实现更精准的视频内容解析，为构建新一代交互式视频分析平台提供核心技术支持，特别是在需要细粒度语义理解的工业场景中展现巨大价值。

衍生相关工作

该数据集已催生多项重要研究工作，其中最显著的当属VoCap视频对象描述与分割框架。相关衍生工作包括基于提示词的对象分割算法改进、多模态融合网络的优化，以及零样本视频理解任务的推进。这些研究不仅拓展了数据集的应用边界，更为构建通用视频理解系统奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集