PackUV-2B

Name: PackUV-2B
Creator: 布朗大学; 马萨诸塞大学阿默斯特分校; Meta
Published: 2026-02-26 22:24:48
License: 暂无描述

arXiv2026-02-26 更新2026-02-28 收录

下载链接：

https://ivl.cs.brown.edu/packuv

下载链接

链接失效反馈

官方服务：

资源简介：

PackUV-2B是由布朗大学、马萨诸塞大学阿默斯特分校和Meta联合创建的大规模多视角4D数据集，包含20亿帧高分辨率图像，覆盖100个动态场景序列。数据集通过50余台同步相机捕捉360°全方位视角，涵盖人类交互、物体互动及人机协作等复杂场景，包含大幅运动与频繁遮挡现象。其创建过程采用光学流引导的关键帧技术和高斯属性标注，确保了时序一致性。该数据集旨在推动沉浸式AR/VR、机器人4D理解等领域的算法研究，解决长时程动态场景建模中的存储、传输与渲染难题。

PackUV-2B is a large-scale multi-view 4D dataset jointly created by Brown University, University of Massachusetts Amherst, and Meta. It contains 2 billion high-resolution image frames across 100 dynamic scene sequences. Captured by over 50 synchronized cameras to provide 360° omnidirectional views, the dataset covers complex scenarios including human-human interactions, object-object interactions, human-robot collaboration, as well as scenes with large-scale motions and frequent occlusions. Its construction adopts optical flow-guided keyframe technology and Gaussian attribute annotation to ensure temporal consistency. This dataset aims to advance algorithmic research in fields such as immersive AR/VR and robotic 4D scene understanding, and address the challenges of storage, transmission and rendering in long-duration dynamic scene modeling.

提供机构：

布朗大学; 马萨诸塞大学阿默斯特分校; Meta

创建时间：

2026-02-26

搜集汇总

数据集介绍

构建方式

在体视频领域，高质量动态场景的采集与重建始终面临巨大挑战。PackUV-2B数据集通过部署超过50台同步相机，构建了一个覆盖360度视角的大规模多视角采集系统。数据采集过程在受控工作室与非受控真实场景中同步进行，总计捕获了100个动态序列，涵盖人-人交互、人-物交互以及机器人交互等多种复杂场景，累计帧数超过20亿。每个序列平均时长约10分钟，部分序列长达30分钟，确保了时间维度上的连续性与丰富性。

特点

PackUV-2B作为当前最大的4D多视角数据集，其显著特点在于极高的数据规模与场景多样性。数据集不仅提供了前所未有的帧数量与相机数量，更在运动复杂度上实现了突破，包含了从缓慢动作到快速体育活动的广泛速度变化，以及从小尺度桌面操作到大尺度舞蹈的大范围运动。此外，数据集特意纳入了频繁的遮挡与重现现象，以及透明、反光等复杂材质物体，为评估体视频方法在极端动态条件下的鲁棒性设立了新的基准。

使用方法

该数据集主要用于推动长时序、高动态体视频重建与渲染方法的研究。研究者可利用PackUV-2B评估其算法在应对大运动、严重遮挡及长时间一致性保持等方面的性能。数据集提供了标准的相机参数、同步时间戳及高分辨率RGB帧，支持端到端的模型训练与验证。通过将序列划分为训练集与测试集，并预留特定相机视角用于新颖视图合成质量评估，该数据集能够全面、客观地衡量不同体视频表示与拟合方法的有效性。

背景与挑战

背景概述

PackUV-2B数据集由布朗大学、麻省大学阿默斯特分校及Meta的研究团队于2026年提出，旨在推动四维体视频领域的发展。该数据集作为当前规模最大的多视角四维数据集，包含了超过500亿帧图像，由超过50台同步相机以360度覆盖方式采集，涵盖了从受控工作室到非受控自然场景的多样化动态序列。其核心研究问题聚焦于解决长时序、大运动及频繁遮挡条件下的体视频重建、存储与流式传输难题，为增强现实、虚拟现实及机器人感知等应用提供了关键数据支撑，显著提升了动态场景建模的基准水平。

当前挑战

PackUV-2B数据集所针对的体视频重建领域，长期面临长序列时序一致性保持、大运动与遮挡处理以及高效压缩流式传输等挑战。具体而言，现有方法在建模超过数秒的视频时易出现质量退化、内存需求激增等问题，且生成的体视频格式通常与传统视频编码基础设施不兼容，阻碍了实际部署。在数据集构建过程中，研究团队需克服大规模多相机同步采集、海量数据存储与处理以及复杂动态场景标注等困难，确保数据的高分辨率、高帧率与时空对齐，以支撑前沿算法的训练与评估。

常用场景

经典使用场景

在体视频重建领域，PackUV-2B数据集以其大规模、高动态和复杂遮挡特性，成为评估长序列4D高斯表示方法性能的基准工具。该数据集通过超过50台同步相机捕获的360度覆盖场景，涵盖了从缓慢的人机交互到快速体育运动的多样化动态序列，为研究长时间动态场景的时空一致性建模提供了丰富数据。经典使用场景包括测试新型体视频表示方法（如PackUV）在处理大运动、频繁遮挡及任意时长序列时的重建质量与效率，推动体视频压缩与流式传输技术的发展。

实际应用

PackUV-2B数据集的实际应用场景广泛涉及增强现实、虚拟现实及沉浸式媒体领域。例如，在体育赛事直播中，该数据集可用于训练实时体视频流式传输系统，实现多角度自由视点观看；在影视制作中，支持高动态场景的细节重建与特效合成；此外，在机器人视觉与人机交互研究中，数据集提供的复杂动态序列有助于开发鲁棒的4D环境感知算法。这些应用得益于数据集的大规模、高分辨率及真实世界多样性，推动了体视频技术在娱乐、教育和工业中的落地。

衍生相关工作

PackUV-2B数据集衍生了多项经典研究工作，主要集中在4D高斯表示的优化与扩展。例如，基于该数据集的PackUV-GS方法提出了光流引导的关键帧与高斯标记策略，实现了长序列体视频的时空一致拟合；同时，数据集的引入促进了与标准视频编解码器（如HEVC、FFV1）兼容的体视频压缩技术发展，如神经压缩框架的探索。这些工作不仅提升了动态场景重建的质量与效率，还为体视频的存储、流式传输及实时渲染提供了新的解决方案，推动了计算机视觉与图形学领域的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集