GMOS-2K
收藏arXiv2026-05-29 更新2026-05-30 收录
下载链接:
https://www.robots.ox.ac.uk/vgg/research/gmos/
下载链接
链接失效反馈官方服务:
资源简介:
GMOS-2K是由牛津大学视觉几何组与上海交通大学联合创建的视频移动对象分割数据集,旨在为三维空间和时间细粒度运动分析提供基准资源。该数据集包含2,210个真实世界视频序列,总计涵盖4,648个独立运动对象,数据来源于五个成熟的视频对象分割基准(DAVIS17、YTVOS19、OVIS、MoCA-Mask和HOI4D),并经过严格的筛选与标注流程。数据创建过程通过对原始视频进行双重过滤,并对运动对象添加时间细粒度标注,精确标记每个对象在时间轴上的运动区间。该数据集主要应用于自动驾驶、视频监控和三维场景重建等领域,旨在解决传统移动对象分割方法在三维几何感知不足和时间粒度粗糙方面的局限性,推动实时在线运动分割技术的发展。
GMOS-2K is a video moving object segmentation dataset jointly developed by the Visual Geometry Group of the University of Oxford and Shanghai Jiao Tong University, designed to serve as a benchmark resource for fine-grained 3D spatial and temporal motion analysis. This dataset comprises 2,210 real-world video sequences, encompassing a total of 4,648 independently moving objects. The source data is collected from five mature video object segmentation benchmarks, namely DAVIS17, YTVOS19, OVIS, MoCA-Mask, and HOI4D, and has undergone strict screening and annotation workflows. In the dataset creation process, double filtering is performed on the original videos, and fine-grained temporal annotations are added to moving objects to accurately mark their motion intervals along the temporal axis. Primarily applied in fields such as autonomous driving, video surveillance, and 3D scene reconstruction, this dataset aims to alleviate the limitations of conventional moving object segmentation methods, including insufficient 3D geometric perception and overly coarse temporal granularity, and advance the development of real-time online motion segmentation technologies.
提供机构:
牛津大学·视觉几何组; 上海交通大学·SAI
创建时间:
2026-05-29
原始信息汇总
数据集概述
- 数据集名称:GMOS-2K
- 用途:用于运动物体分割(Moving Object Segmentation),支持在 RGB 视频上输出 3D 感知、时间精细粒度的多运动物体分割,并提供前景-背景变体 GMOS-S 以加速部署。
- 数据来源:从五个已建立的 视频物体分割(VOS) 基准数据集中筛选和标注:
- DAVIS
- YTVOS
- OVIS
- MoCA-Mask
- HOI4D
- 规模:
- 视频总数:2,210 个真实世界视频
- 标注运动物体数量:4,648 个
- 划分:1,930 个训练视频 / 280 个测试视频
- 标注类型:
- 每个物体的逐帧分割掩码
- 时间区间标签:精确标注每个物体在视频中 运动的时间区间,实现时间精细粒度的运动标注
- 配套评价协议:MOS-I(Instantaneous),包含三项互补指标,用于评估时间精细粒度的运动分割性能。
性能与特点
- GMOS 在 MOS、MOS-I 和无监督 VOS 基准上达到最优结果。
- 运行速度显著快于以往的多物体 MOS 方法。
- 支持在线推理,可用于流式部署场景。
搜集汇总
数据集介绍

构建方式
GMOS-2K数据集基于五个现有的视频目标分割基准(DAVIS17、YTVOS19、OVIS、MoCA-Mask和HOI4D),通过两阶段管道构建而成。首先,从5001个候选视频中筛选出所有独立移动对象均具备分割标注的序列;其次,对其中非全程运动的视频施加时间细粒度标注(TFA),由标注员为每个对象标注其运动时间区间。最终汇集2210个真实世界视频,包含4648个标注对象,并划分为1930个训练视频与280个测试视频。训练集与测试集分别源自五个子集,其中测试集专为MOS-I评估设计,重命名为DAVIS17-IM和YTVOS19-IM。
特点
GMOS-2K的核心特点在于其时间细粒度的运动标签体系。与现有数据集将运动视为序列级属性不同,该数据集为每个对象标注了精确的运动时间窗口,明确指示其在每一帧是运动还是静止状态。这使得模型能够学习瞬时运动状态判别的能力。数据集覆盖了多样化场景,包括严重遮挡(OVIS)、手物交互(HOI4D)以及野生动物和人类活动片段(DAVIS17、YTVOS19、MoCA-Mask)。每个视频中的对象数量集中于0至4个,运动比例分布呈现双峰特性,大部分对象全程运动,其余对象运动比例均匀分布。
使用方法
GMOS-2K主要用于训练和评估时间敏感的运动分割方法,特别是支持GMOS框架中的MOS-I(瞬时运动分割)协议。训练时,数据集与合成数据(Kubric、PointOdyssey、DynamicReplica)及静态场景数据(Mannequin Challenge)联合使用,总计14171个视频。评估时,数据集提供两种协议:传统MOS协议要求预测序列中任何时刻移动过的所有对象的逐帧掩码;MOS-I协议则仅对对象主动运动的帧评分,并对静态或背景上的假阳性预测施加惩罚,通过移动对象Jaccard指数、假阳性计数和平均时序IoU三个互补指标全面评估性能。
背景与挑战
背景概述
GMOS-2K数据集由牛津大学视觉几何组(Visual Geometry Group)与上海交通大学上海人工智能实验室于2026年联合创建,旨在解决运动物体分割(Moving Object Segmentation, MOS)领域中长期存在的两大根本性局限:现有方法过度依赖预计算的二维辅助模态(如光流或点轨迹),缺乏三维几何信息,因此在相机大幅运动或深度视差场景下表现脆弱;同时,传统基准将运动视为序列级属性,忽视了物体逐帧的瞬时运动状态,阻碍了在线与实时部署。该数据集从DAVIS17、YTVOS19、OVIS、MoCA-Mask和HOI4D五个成熟的视频物体分割基准中筛选出2,210段真实世界视频,并为每个物体标注了逐帧运动时间戳,为时间敏感的精细粒度运动分割方法提供了统一的训练与评估资源,推动了MOS领域从粗粒度序列级分割向三维感知、瞬时运动状态感知的范式转变。
当前挑战
GMOS-2K所解决的领域问题在于,传统MOS方法将运动视为贯穿整个视频的恒定属性,无法区分物体在任意时刻是静止还是运动,这限制了其在需要实时反馈的应用场景中的有效性。为突破这一局限,数据集引入了瞬时运动分割协议MOS-I,要求模型在每一帧中仅分割当前主动运动的物体,并惩罚对静止或背景物体的误报。在数据集构建过程中,最大的挑战在于对大量视频进行精确的逐帧运动状态标注——从5,001个候选视频中,通过两级筛选仅保留2,210个有效视频,其中1,467个需要人工进行时间精细标注(TFA),标注流程需确保每个物体的运动起止时间准确无误,且需处理遮挡、物体消失等复杂情况。最终,标注工作耗时约207人时,并通过双重审核机制保证标注质量,为后续模型训练与评估奠定了坚实基础。
常用场景
经典使用场景
GMOS-2K数据集专为三维时空感知的运动目标分割任务而设计,其核心应用场景在于从原始RGB视频中精准识别、分割并追踪那些独立于相机运动的物体。该数据集凭借其2,210个真实世界视频与逐帧、逐对象的运动状态标注,为模型提供了在复杂视角变化、深度视差以及遮挡场景下学习运动与静态对象区分的宝贵资源,尤其适用于需要实时在线推理的高动态环境。
实际应用
在实际应用中,GMOS-2K所支撑的技术可直接赋能自动驾驶中的动态障碍物感知、视频监控中的异常运动检测、野生动物生态监测中的个体行为分析,以及增强现实场景中对动态物体的实时交互。由于无需预计算光流或深度图,该数据集训练出的模型具备极低的计算开销和在线推理能力,特别适合部署于资源受限的嵌入式系统或要求低延迟的流媒体处理场景,为运动感知技术在工业界的大规模落地提供了坚实的数据基础。
衍生相关工作
围绕GMOS-2K数据集,衍生出了一系列具有影响力的经典工作。最直接的是其伴随框架GMOS,该模型采用提议器-传播器架构,融合了三维几何编码器与分割编码器的优势,在多个运动目标分割基准上取得了领先性能,同时提出了GMOS-S这一流式前景-背景变体以追求更快的推理速度。此外,基于该数据集所定义的MOS-I瞬时运动评估协议,激发了后续方法在时间精细度上的深入探索,推动了如GeoMotion等利用潜在四维几何进行运动解耦的研究,形成了以时空联合建模为核心的研究新范式。
以上内容由遇见数据集搜集并总结生成



