MUVOD

Name: MUVOD
Creator: Institute of Research and Technology b<>com, France
Published: 2025-07-10 16:07:59
License: 暂无描述

arXiv2025-07-10 更新2025-07-12 收录

下载链接：

https://volumetric-repository.labs.b-com.com/#/muvod

下载链接

链接失效反馈

官方服务：

资源简介：

MUVOD数据集是一组用于训练和评估在重建的真实世界场景中物体分割的多视角视频数据集。它包含17个场景，涵盖了各种室内或户外活动，这些场景是从不同的数据集中收集的，每个场景至少包含9个视角，最多包含46个视角。数据集提供了7830张RGB图像（每个视频30帧）及其相应的4D运动分割掩模。该数据集包含73个类别中的459个实例，旨在作为评估多视角视频分割方法的基本基准。MUVOD数据集旨在促进4D物体分割研究，提供了一种新的评估指标和基线分割方法，以及一个新的3D物体分割任务基准。该数据集适用于虚拟现实、增强现实等应用中的场景编辑和物体交互等下游任务。

The MUVOD dataset is a multi-view video dataset intended for training and evaluating object segmentation in reconstructed real-world scenes. It comprises 17 scenes covering diverse indoor and outdoor activities, collected from multiple datasets. Each scene contains at least 9 views and up to 46 views. The dataset provides 7,830 RGB images (30 frames per video) along with their corresponding 4D motion segmentation masks, including 459 instances across 73 categories. It is designed to serve as a fundamental benchmark for evaluating multi-view video segmentation methods. The MUVOD dataset aims to advance 4D object segmentation research, offering a novel evaluation metric, baseline segmentation methods, and a new benchmark for 3D object segmentation tasks. This dataset is applicable to downstream tasks such as scene editing and object interaction in applications like virtual reality (VR) and augmented reality (AR).

提供机构：

Institute of Research and Technology b<>com, France

创建时间：

2025-07-10

原始信息汇总

MUVOD: Multi-view Video Object Segmentation Dataset

数据集基本信息

数据集名称：MUVOD (Multi-view Video Object Segmentation Dataset)
相关论文：
- Wei, B.; Maraval, J.; Outtas, M.; Kpalma, K.; Ramin, N. & Zhang, L. (2023)
  Submission in progress
- Maraval, J.; Wei, B.; Ramin, N. & Zhang, L. (2023)
  Submission in progress

数据集内容

数据名称	相机排列	视频长度	分辨率	视图数	标注帧数	标注视图数	对象实例数	数据大小
Painter (MPEG)	4 x 4 平面	300帧	2048x1088	16	30	16	27	1.15 GB
Breakfast (MPEG)	5 x 3 平面	97帧	1920x1080	15	30	15	30	396 MB
Barn (MPEG)	5 x 3 平面	97帧	1920x1080	15	30	15	30	463 MB
Frog (MPEG)	13 x 1 线形	300帧	1920x1080	13	30	13	5	1.4 GB
Carpark (MPEG)	9 x 1 线形	250帧	1920x1088	9	30	9	22	587 MB
PoznanStreet (MPEG)	9 x 1 线形	250帧	1920x1088	9	30	9	24	552 MB
Fencing (MPEG)	10 x 1 线性弧	250帧	1920x1080	10	30	10	8	464 MB
Blocks (MPEG)	10 x 1 线性弧	300帧	1920x1080	10	30	10	22	641 MB
MATF (b<>com)	10 x 1 立体线	300帧	1920x1080	10	30	10	44	314 MB
FlameSteak (Meta)	2 垂直堆叠弧	300帧	2704x2028	21	30	21	68	1.76 GB
CoffeeMartini (Meta)	2 垂直堆叠弧	300帧	2704x2028	18	30	18	65	1.96 GB
AlexaMeadeExhibit (Google)	半球形	300帧	2560x1920	45	30	20	33	3.88 GB
AlexaMeadeFacePaint (Google)	半球形	300帧	2560x1920	46	30	20	14	3.51 GB
Dog (Google)	半球形	300帧	2560x1920	41	30	20	9	4.15 GB
Welder (Google)	半球形	300帧	2560x1920	41	30	20	16	4.65 GB

搜集汇总

数据集介绍

构建方式

MUVOD数据集通过精心挑选17个真实世界的多视角视频场景构建而成，涵盖室内外多样活动主题。采用半自动标注流程：首先在中心视角关键帧进行人工标注，结合Segment Anything Model生成初始掩膜；随后通过XMem模型进行跨视角空间传播，并引入3D几何线索增强一致性；最后采用双向时序传播技术确保时间连贯性。数据集包含7830帧RGB图像及对应4D运动分割掩膜，涉及459个实例和73个类别。

特点

该数据集具有三大核心特征：多维度动态标注支持4D对象追踪，包含动态、静态和环境三种对象类型；场景复杂度高，涵盖遮挡、小尺度物体等挑战性场景；相机配置多样，视角数量从9到46不等，支持不同稀疏程度的实验设置。特别提供运动状态标签和深度层级信息，为复杂场景理解提供丰富语义支持。

使用方法

MUVOD支持两种主要应用范式：多视角视频分割任务需从初始视角掩膜出发，在时空维度传播分割结果，采用改进的J&F指标评估性能；3D分割基准任务则通过用户提供的2D提示在重建场景中分割目标，按物体类型（主导/遮挡/小尺度/复杂结构）评估IoU。数据集附带基线方法和评估协议，支持NeRF与3D高斯泼溅等新型表示方法的验证。

背景与挑战

背景概述

MUVOD数据集由Bangning Wei等人于2025年提出，是一个专为动态场景4D目标分割设计的创新性多视角视频数据集。该数据集由法国b<>com研究所与雷恩大学联合开发，旨在解决神经辐射场（NeRF）和3D高斯泼溅（3D GS）技术在动态场景分割中缺乏高质量标注数据的问题。MUVOD包含17个真实场景的7830帧RGB图像，涵盖73个类别的459个实例，每个场景配备9-46个同步相机视角，并提供时空一致的4D运动分割掩码。作为首个支持多视角视频对象分割（MVOS）任务的标准基准，其创新性地融合了室内外场景、复杂物体交互及多样化相机配置，显著推动了沉浸式VR/AR、场景编辑等下游应用的发展。

当前挑战

MUVOD面临的挑战主要体现在两方面：领域问题层面，现有动态场景分割方法受限于跨视角时空一致性建模，难以处理多物体遮挡、小尺度目标及非刚性形变等复杂情况；数据构建层面，需解决大规模多视角视频的精确标注难题，包括跨相机掩码关联（需人工校正SAM生成掩码的30%）、动态物体深度排序（通过分层策略降低87%人工调整量）以及非Lambertian表面的光照影响。此外，数据多样性要求（如'CoffeeMartini'场景含60个静态物体）与计算存储成本（单场景平均占用4.2TB）的平衡，以及半自动标注流程中XMem模型在宽基线相机间的传播误差（导致15%场景需二次修正），均为构建过程带来显著挑战。

常用场景

经典使用场景

MUVOD数据集在动态场景的多视角视频对象分割领域具有经典应用价值。该数据集通过提供17个不同场景的多视角视频序列，涵盖了室内外多样化的活动场景，每个场景包含9至46个视角的7830帧RGB图像及其对应的4D运动分割掩码。研究人员可利用该数据集训练和评估多视角视频对象分割算法，特别是在处理复杂动态场景中的对象跟踪与分割任务时，MUVOD提供了丰富的时空一致性标注数据。

衍生相关工作

基于MUVOD数据集已衍生出多项重要研究工作。在3D分割领域，Gaussian Grouping方法利用该数据集实现了84.5%的显性对象分割精度；SA3D算法通过逆向渲染策略在遮挡对象分割上取得突破。数据集还催生了新型评估指标J&FN，为多视角分割建立了统一评价标准。相关研究进一步拓展到动态神经辐射场、3D高斯表示等前沿方向，推动了4D场景理解技术的整体发展。

数据集最近研究