DiVa-360

Name: DiVa-360
Creator: 布朗大学
Published: 2024-03-27 01:40:47
License: 暂无描述

arXiv2024-03-27 更新2024-07-23 收录

下载链接：

https://ivl.cs.brown.edu/research/diva

下载链接

链接失效反馈

官方服务：

资源简介：

DiVa-360数据集由布朗大学创建，是一个包含21个不同移动对象序列、25个手对象交互序列和8个长时间序列（2-3分钟）的真实世界360°多视角视觉数据集。该数据集通过定制的低成本捕捉系统捕捉，提供了动态场景的360°覆盖、前景背景分割掩码以及具有复杂运动的多样桌面对象场景。DiVa-360旨在促进动态长时间神经场的研究，解决现有动态数据集的限制，如缺乏大规模多视角真实世界数据和短序列长度。

The DiVa-360 dataset, created by Brown University, is a real-world 360° multi-view visual dataset containing 21 distinct moving object sequences, 25 hand-object interaction sequences, and 8 long-duration sequences (lasting 2 to 3 minutes each). Captured via a custom low-cost capture system, it provides 360° coverage of dynamic scenes, foreground-background segmentation masks, and diverse desktop object scenes with complex motions. The DiVa-360 dataset aims to advance research on dynamic long-term neural fields, addressing the limitations of existing dynamic datasets, such as the lack of large-scale real-world multi-view data and short sequence lengths.

提供机构：

布朗大学

创建时间：

2023-08-01

搜集汇总

数据集介绍

构建方式

在动态神经场研究领域，高质量多视角数据集的构建是推动算法发展的关键。DiVa-360数据集的构建依托于专门设计的布朗交互捕获系统（BRICS），该系统采用模块化铝制框架，内部形成1立方米的捕获空间，六面侧壁各配置3×3网格的传感器面板，共计集成53个同步RGB摄像头。捕获过程中，系统以1280×720分辨率、120帧率同步录制，确保360度全方位覆盖。数据采集涵盖三类场景：21个按运动类型分类的物体序列、25个精细手物交互序列以及8个长时动态序列。通过基于I-NGP的多视角一致分割方法，为每帧图像提供前景-背景掩码，并辅以同步音频与文本描述，最终形成包含1740万帧图像的大规模动态视觉数据集。

特点

DiVa-360数据集在动态神经场研究中展现出多维度独特优势。其核心特征在于提供真实世界、全视角覆盖的桌面尺度动态序列，弥补了现有数据集中在视角覆盖与时长上的局限。数据集包含多样化的运动模式，涵盖缓慢连续、快速变换、精细微动、重复规律及随机非确定等多种运动类型，并包含复杂的手物交互场景，为模型处理遮挡与精细运动提供了挑战性样本。技术层面，数据集提供高分辨率、高帧率的同步多视角视频，平均序列长度达51秒，最长可达3分钟，并附带多视角一致的前景分割掩码，有效消除了背景干扰与视角不一致性问题。这些特征使其成为目前规模最大、模态最丰富的动态神经场基准数据集。

使用方法

DiVa-360数据集为动态神经场方法的训练、评估与比较提供了标准化基准。研究者可将数据集按5秒片段划分，采用35个摄像头视角作为训练集，预留6个视角作为测试集，以评估模型的新视角合成能力。基准评估涵盖峰值信噪比、结构相似性指数、学习感知图像块相似度等渲染质量指标，以及训练与渲染时间效率分析。数据集支持对时序信息利用、空间分辨率适应性、视角数量影响等关键问题的系统性研究。通过比较逐帧训练、动态体素分解、时空平面分解等不同范式，研究者可深入分析现有方法在长时序建模、运动分解与细节保持方面的局限，为开发更高性能的动态神经场算法提供实证基础。

背景与挑战

背景概述

DiVa-360数据集由布朗大学、IIIT海得拉巴和I3S-CNRS/蔚蓝海岸大学的研究团队于2024年共同创建，旨在推动动态神经场领域的研究进展。该数据集聚焦于桌面尺度动态场景的沉浸式三维重建，通过定制化的低成本捕获系统BRICS，利用53个同步摄像头实现了360度全覆盖的高分辨率、高帧率多视角视频采集。DiVa-360包含21个不同运动类型的物体序列、25个手-物体交互序列以及8个长时程序列，总计1740万帧图像，并提供了前景-背景分割掩码、同步音频和文本描述。这一数据集填补了真实世界长时程动态多视角数据资源的空白，为动态神经场方法的训练与评估提供了关键支撑，显著促进了计算机视觉与图形学中对复杂动态场景建模能力的发展。

当前挑战

DiVa-360数据集致力于解决动态神经场在长时程、高保真三维重建中的核心挑战。在领域问题层面，现有动态神经场方法难以高效处理长序列视频，常面临训练速度慢、存储需求高以及时空一致性不足等问题，导致重建结果在复杂运动（如手部交互）中丢失细节或产生伪影。在构建过程中，研究团队需克服大规模多摄像头系统的同步与校准难题，确保53个摄像头在高速帧率下数据采集的精确对齐；同时，前景-背景分割需在多视角一致性约束下实现，以避免手动标注的繁复性；此外，数据集的多样性与真实性要求捕获系统能够适应不同运动类型与交互场景，这对硬件设计与软件流程提出了较高要求。

常用场景

经典使用场景

在动态神经场研究领域，DiVa-360数据集凭借其360度全覆盖、高分辨率与长时序特性，成为评估动态神经辐射场（Dynamic NeRF）方法性能的基准平台。该数据集通过53个同步相机捕获的桌面尺度动态场景，为研究者提供了丰富的多视角视频序列，涵盖物体运动、手物交互及长时程活动等多种复杂场景。其经典应用场景集中于新型视图合成、动态三维重建以及时序一致性建模等核心任务，为算法在真实世界动态环境中的泛化能力提供了 rigorous 的验证环境。

衍生相关工作

DiVa-360的发布催生了一系列围绕动态神经场优化的衍生研究工作。基于该数据集的基准测试，研究者对Per-Frame I-NGP、MixVoxels与K-Planes等方法进行了系统性评估，揭示了现有动态方法在时序一致性、高频细节保留与存储效率等方面的局限。这些发现直接推动了后续动态高斯溅射（Dynamic Gaussian Splatting）等新型表示方法的发展。同时，数据集提供的分割掩码与多模态信息促进了神经场与分割网络、音频-视觉融合模型的结合研究。在硬件系统层面，其配套的BRICS捕获系统也为低成本、高密度多相机捕获方案的设计提供了重要参考。

数据集最近研究