Long-RVOS

Name: Long-RVOS
Creator: 中山大学, 山东大学
Published: 2025-05-19 12:52:31
License: 暂无描述

arXiv2025-05-19 更新2025-05-21 收录

下载链接：

https://isee-laboratory.github.io/Long-RVOS

下载链接

链接失效反馈

官方服务：

资源简介：

Long-RVOS 是一个针对长期视频对象分割任务的大规模基准数据集。该数据集包含超过2000个平均时长超过60秒的视频，涵盖了多种在不同情况下出现的物体，如遮挡、消失再现和场景切换。每个物体都被手动标注了三种不同类型的描述，用于单独评估对静态属性、运动模式和时空关系的理解。此外，Long-RVOS 引入了两种新的指标来评估时间和时空一致性。该数据集旨在推动 RVOS 研究朝着更真实和长格式的视频方向发展，并为开发更鲁棒的 RVOS 模型奠定基础。

Long-RVOS is a large-scale benchmark dataset for the task of long-term video object segmentation. It contains more than 2000 videos with an average duration of over 60 seconds, covering a wide range of objects that appear under diverse challenging conditions including occlusion, disappearance and reappearance, and scene transitions. Each object is manually annotated with three distinct types of descriptions, which enable separate evaluation of the model's understanding of static attributes, motion patterns, and spatio-temporal relationships. Furthermore, Long-RVOS proposes two novel metrics for assessing temporal consistency and spatio-temporal consistency. This dataset is designed to promote RVOS research towards more realistic, long-form videos, and lay a solid foundation for the development of more robust RVOS models.

提供机构：

中山大学, 山东大学

创建时间：

2025-05-19

搜集汇总

数据集介绍

构建方式

Long-RVOS数据集的构建基于多源长视频数据集整合，包括TAO、VidOR和Ego-Exo4D，通过严格筛选标准（视频时长超过20秒、排除背景或模糊类别对象、每视频需含两个以上有效对象）初选3,000余视频。最终精选2,193个视频与6,703个对象，采用三阶段标注流程：首先通过在线平台由人工标注静态、动态及混合型文本描述，经专家验证后保留24,689条高质量描述；其次利用SAM2模型基于初始边界框生成掩码，并通过迭代式检查-修正循环确保像素级标注精度；最后引入交互式工具辅助人工修正，形成首个分钟级RVOS基准数据集。

使用方法

该数据集支持多维度研究：训练阶段建议采用稀疏帧采样策略（如ReferMo基线采用的6剪辑×3运动帧）平衡计算效率与长时建模；评估时需分别测试三类文本描述下的表现，重点关注vIoU指标反映的时空连贯性；对于方法开发，推荐融合运动信息（如MPEG-4运动向量）与局部-全局架构，通过关键帧锚定与跨片段交互解决长视频记忆瓶颈。测试集225视频需严格用于最终性能验证，其复杂场景设计可有效检验模型实际应用潜力。

背景与挑战

背景概述

Long-RVOS数据集由中山大学和山东大学的研究团队于2025年提出，旨在解决长时参考视频对象分割（RVOS）领域的核心问题。该数据集包含2,193个平均时长超过60秒的视频，涵盖了遮挡、消失重现和镜头切换等复杂场景，并提供了静态、动态和混合三种类型的文本描述。作为首个分钟级别的RVOS基准，Long-RVOS通过引入时空一致性评估指标（tIoU和vIoU），显著推动了视频对象分割领域向更实际的长视频场景发展。

当前挑战

Long-RVOS面临的挑战主要体现在两个方面：领域问题方面，现有RVOS方法在长视频中难以处理目标对象的频繁遮挡和消失重现，且文本描述往往仅涉及视频片段，导致时空推理不足；构建过程方面，数据采集需整合多源长视频数据集，标注需处理像素级掩码和多样化的文本描述，且需开发新工具支持大规模高质量标注。此外，现有GPU内存限制使得训练与推理阶段存在显著差距，加剧了长视频处理的难度。

常用场景

经典使用场景

Long-RVOS数据集作为首个专注于长时指代视频目标分割（RVOS）的大规模基准，其经典使用场景主要围绕复杂长视频中的目标识别与跟踪。该数据集通过平均时长超过60秒的2000+视频，模拟了真实场景中目标频繁遮挡、消失再现及镜头切换等挑战，为算法提供了测试长时跨度的时空推理能力的平台。其标注包含静态属性、动态行为与混合描述三类文本，使得模型需同时理解外观特征与运动模式，例如在监控视频中追踪“先坐下后离开”的人物，或在野生动物观测中定位“跳跃后隐匿”的动物。

解决学术问题

Long-RVOS解决了现有RVOS研究中的关键局限：短时视频主导的基准无法反映真实场景的长时依赖性。通过引入tIoU和vIoU两项新指标，该数据集首次量化评估模型在时序一致性与时空体积重叠上的表现，弥补了传统帧级J&F指标的不足。其分钟级视频长度和多类型文本标注，推动了算法在遮挡处理、跨镜头目标关联及动态语言理解方面的研究，例如验证模型能否在目标长时间消失后仍保持正确分割，或准确响应“被黑猫追逐后跳高”的复合语义。

实际应用

在智能监控领域，Long-RVOS可训练系统持续追踪特定嫌疑人的行动轨迹；在自动驾驶中，其长时特性有助于理解行人反复进入盲区的行为模式。影视工业则能利用其混合描述标注，实现基于自然语言的素材检索（如“弹吉他后走向窗边的乐手”）。此外，该数据集对医学影像分析具有启示意义，例如在内窥镜视频中定位随时间形态变化的病灶，或通过动态描述（“收缩的血管”）辅助诊断。

数据集最近研究