OVIS_RGBD

Hugging Face2025-12-18 更新2025-12-19 收录

下载链接：

https://huggingface.co/datasets/QuanzhuNiu/OVIS_RGBD

下载链接

链接失效反馈

官方服务：

资源简介：

OVIS_RGBD数据集是为论文《Beyond Appearance: Geometric Cues for Robust Video Instance Segmentation》而创建的。该数据集基于OVIS数据集的原帧图像和标注，使用DepthAnythingV2对所有图像进行单目深度估计，并将深度图与RGB图像在通道维度上拼接，形成RGBD格式的图像。该数据集主要用于视频实例分割研究，特别是针对遮挡情况下的分割任务。

创建时间：

2025-12-17

原始信息汇总

OVIS_RGBD 数据集概述

基本信息

数据集名称：OVIS_RGBD
许可证：apache-2.0
主要标签：segmentation
主要语言：en

数据集来源与目的

该数据集为论文《Beyond Appearance: Geometric Cues for Robust Video Instance Segmentation》而创建，论文链接为：https://arxiv.org/abs/2507.05948。
具体使用方法可在GitHub仓库（https://github.com/QuanzhuNiu/DVIS_Depth）中找到。

数据构成与处理

原始数据来源：原始帧图像和标注来自OVIS数据集（https://songbai.site/ovis/）。
深度信息生成：使用DepthAnythingV2（https://depth-anything-v2.github.io/）对所有图像进行单目深度估计。
数据格式：将深度图在通道维度上进行拼接，最终每张图像为RGBD格式。

相关引用

BibTeX @InProceedings{niu2025, author = {Niu, Quanzhu and Zhou, Yikang and Chen, Shihao and Zhang, Tao and Ji, Shunping}, title = {Beyond Appearance: Geometric Cues for Robust Video Instance Segmentation}, booktitle = {ICCV Workshops}, year = {2025}, } @InProceedings{OVIS, author = {Jiyang Qi and Yan Gao and Yao Hu and Xinggang Wang and Xiaoyu Liu and Xiang Bai and Serge Belongie and Alan Yuille and Philip Torr and Song Bai}, title = {Occluded Video Instance Segmentation: A Benchmark}, booktitle = {ICCV}, year = {2022}, } @InProceedings{depth_anything_v2, author = {Yang, Lihe and Kang, Bingyi and Huang, Zilong and Zhao, Zhen and Xu, Xiaogang and Feng, Jiashi and Zhao, Hengshuang}, title = {Depth Anything V2}, booktitle = {NeurIPS}, year = {2024}, }

搜集汇总

数据集介绍

构建方式

在视频实例分割领域，OVIS_RGBD数据集的构建体现了对几何信息的深度整合。该数据集以原始OVIS数据集为基础，其帧图像与标注均来源于此。通过采用DepthAnythingV2这一先进的单目深度估计算法，对全部图像进行深度信息提取，生成对应的深度图。最终，将RGB图像与深度图在通道维度上进行拼接，从而形成独特的RGBD四通道数据格式，为模型提供了超越表观的外观与几何双重线索。

使用方法

该数据集主要用于支持基于几何线索的鲁棒视频实例分割研究。使用者可以按照其GitHub仓库中提供的指南，加载RGBD格式的图像及其对应的实例分割标注。在模型训练与评估过程中，研究者能够设计网络架构以同时处理颜色和深度信息，探索深度线索如何辅助解决传统RGB模型在遮挡、运动模糊等场景下的分割性能退化问题。通过对比仅使用RGB数据与使用RGBD数据的实验结果，可以定量评估几何信息对分割任务鲁棒性的提升效果。

背景与挑战

背景概述

视频实例分割作为计算机视觉领域的关键任务，旨在对视频序列中的每个目标实例进行像素级识别与跟踪。OVIS_RGBD数据集于2025年由相关研究团队构建，其核心研究问题聚焦于利用几何线索增强模型在复杂遮挡场景下的鲁棒性。该数据集基于2022年发布的OVIS基准扩展，通过引入单目深度估计生成的深度信息，将传统RGB图像升级为RGBD格式，为探索外观特征之外的几何先验提供了重要数据基础，对推动视频理解与三维感知的交叉研究具有显著影响力。

当前挑战

在视频实例分割领域，严重遮挡与目标形变长期制约着模型的跟踪精度与分割一致性。OVIS_RGBD致力于应对这一核心挑战，通过融合深度通道提供几何约束，以区分外观相似但空间位置不同的实例。数据构建过程中，深度图的生成依赖单目深度估计模型Depth Anything V2，其预测精度与泛化能力直接影响RGBD数据的可靠性；同时，如何将深度信息与原始标注有效对齐，并确保时序上的深度一致性，亦是构建过程中需要克服的技术难点。

常用场景

经典使用场景

在视频实例分割领域，OVIS_RGBD数据集通过融合RGB图像与深度信息，为模型提供了超越外观的几何线索。该数据集特别适用于处理视频中因遮挡、运动模糊或光照变化导致的实例分割挑战，研究者可基于其RGBD格式数据训练模型，以提升在复杂动态场景下对物体实例的持续追踪与分割精度。

解决学术问题

该数据集主要应对视频实例分割中因严重遮挡和外观变化引起的鲁棒性问题。传统方法依赖外观特征，在遮挡频繁的场景中易失效，而OVIS_RGBD引入深度通道，提供了几何结构信息，使模型能够利用三维空间关系区分重叠实例，从而推动了对几何线索在分割任务中作用的基础研究，增强了算法在真实复杂环境下的泛化能力。

实际应用

在实际应用中，OVIS_RGBD数据集支持开发更可靠的自动驾驶感知系统、智能监控分析以及机器人环境交互技术。例如，在自动驾驶场景中，车辆需准确识别并追踪被部分遮挡的行人或其他车辆，深度信息的加入帮助系统更好地理解场景几何布局，提升安全决策的准确性，为现实世界的动态视觉理解任务提供了关键数据支撑。

数据集最近研究