LVISCap and LV-VISCap
收藏arXiv2025-10-17 更新2025-10-18 收录
下载链接:
https://www.gabriel.fiastre.fr/maskcaptioner/
下载链接
链接失效反馈官方服务:
资源简介:
LVISCap和LV-VISCap数据集是两个包含视频对象轨迹的合成字幕的数据集。这些数据集是通过利用最先进的视觉语言模型(VLM)为LVIS和LV-VIS数据集中的对象创建字幕而生成的。LVISCap和LV-VISCap数据集旨在训练MaskCaptioner,这是一种能够检测、分割、跟踪和描述视频中的对象轨迹的端到端模型。
The LVISCap and LV-VISCap datasets are two datasets containing synthetic captions for video object trajectories. These datasets are generated by leveraging state-of-the-art vision-language models (VLMs) to create captions for objects in the LVIS and LV-VIS datasets. The LVISCap and LV-VISCap datasets are designed to train MaskCaptioner, an end-to-end model capable of detecting, segmenting, tracking and describing object trajectories in videos.
提供机构:
Inria, École Normale Supérieure, CNRS, PSL Research University, Google Deepmind
创建时间:
2025-10-17
原始信息汇总
MaskCaptioner数据集概述
数据集基本信息
- 数据集名称: MaskCaptioner
- 核心任务: 联合视频中目标轨迹的分割与描述
- 任务类型: 密集视频目标描述(DVOC)
数据集构成
- LVISCap: 基于LVIS数据集扩展的合成标注数据集
- LV-VISCap: 基于LV-VIS数据集扩展的合成标注数据集
数据生成方法
- 标注流程: 使用视觉语言模型(Gemini 2.0 flash)生成目标级描述
- 输入类型: 视觉提示和文本提示
- 用途: 用于训练MaskCaptioner模型
模型功能
- 目标检测
- 目标分割
- 目标跟踪
- 目标轨迹描述
性能表现
- 在VidSTG、VLN和BenSMOT三个基准测试中达到最先进的DVOC结果
- 通过LVISCap和LV-VISCap预训练实现最优性能
技术特点
- 端到端模型架构
- 半在线处理方式
- 视频级跟踪和描述能力
相关资源
- 论文: https://arxiv.org/abs/2510.14904
- 代码: 可通过项目页面获取
搜集汇总
数据集介绍
构建方式
在密集视频对象描述任务中,构建高质量数据集面临标注成本高昂的挑战。LVISCap和LV-VISCap通过先进视觉语言模型生成合成标注,以LVIS和LV-VIS的实例分割标注为基础,对每个对象的轨迹提取边界框并叠加至视频帧,结合包含目标类别、空间坐标等信息的文本提示,由Gemini 2.0 Flash模型生成针对单个对象的自然语言描述,最终形成包含掩码、边界框、类别与描述的四元组标注体系。
特点
该数据集覆盖1200余个对象类别,包含超过160万图像标注与1.9万视频轨迹标注,平均描述长度达13.9词。其核心特征在于首次实现视频中所有对象的密集描述标注,突破传统数据集中仅针对部分对象或场景级描述的限制。通过多模态提示策略生成的描述聚焦于对象外观、动作及交互关系,在保持时空一致性的同时展现出丰富的语言多样性,为端到端模型训练提供完整监督信号。
使用方法
该数据集适用于训练联合检测、分割、跟踪与描述的端到端模型。使用时需将视频分割为连续帧片段,通过实例分割模块提取对象查询特征,经跟踪模块关联跨帧实例后,由描述生成模块输出每个轨迹的文本描述。训练过程可采用分阶段策略,先优化分割检测组件再微调描述头,支持在VidSTG、VLN等基准测试中实现最先进性能,同时扩展传统边界框标注至掩码级别的细粒度理解。
背景与挑战
背景概述
LVISCap与LV-VISCap数据集由Inria、École Normale Supérieure及Google DeepMind等机构的研究团队于2025年提出,旨在解决密集视频对象描述任务中标注数据稀缺的核心问题。该数据集基于LVIS和LV-VIS的实例分割标注,通过先进视觉语言模型生成合成对象描述,首次实现了对视频中所有对象轨迹的掩码、边界框、类别及描述文本的联合标注。其创新性在于突破了传统多阶段训练的局限,为端到端视频理解模型提供了统一的高质量训练资源,显著推动了自动驾驶、人机交互等领域的细粒度视觉语言研究发展。
当前挑战
该数据集致力于解决密集视频对象描述任务中对象检测、跟踪与自然语言生成的联合优化挑战,尤其针对复杂场景下时空动态建模的难题。构建过程中面临合成标注质量控制的挑战,需通过多模态提示策略平衡视觉定位与语义生成的准确性;同时,数据规模与标注一致性的矛盾要求设计高效的跨帧对象关联机制,以克服长视频中对象消失重现导致的跟踪断裂问题。
常用场景
经典使用场景
在密集视频目标描述研究领域,LVISCap与LV-VISCap数据集通过视觉语言模型生成的大规模合成标注,为联合检测、分割、跟踪与描述任务提供了统一训练框架。该数据集最经典的应用场景体现在端到端视频理解模型的训练过程中,研究者可利用其丰富的(掩码、边界框、类别、描述)四元组标注,构建能够同时处理时空定位与自然语言生成的综合系统。
解决学术问题
该数据集有效解决了密集视频目标描述任务中标注数据稀缺的核心难题。通过自动化生成超过19.5万条目标轨迹描述,显著降低了传统人工标注的时间与经济成本,使得研究者能够突破数据瓶颈开展端到端模型训练。其创新性的多模态提示策略为视觉语言模型在细粒度视频理解中的应用开辟了新路径,推动了计算机视觉与自然语言处理领域的交叉融合。
衍生相关工作
基于该数据集训练的MaskCaptioner模型在VidSTG、VLN和BenSMOT三大基准测试中均取得突破性性能,催生了新一代视频理解架构的演进。其创新的时序聚合机制与分割-描述联合优化策略,启发了后续研究如Ref-SAV在长句子指代表达分割领域的拓展应用。该工作建立的端到端训练范式已成为密集视频理解领域的重要参考框架。
以上内容由遇见数据集搜集并总结生成



