360-1M

Name: 360-1M
Creator: 华盛顿大学
Published: 2024-12-11 02:59:44
License: 暂无描述

arXiv2024-12-11 更新2024-12-12 收录

下载链接：

https://mattwallingford.github.io/ODIN/

下载链接

链接失效反馈

官方服务：

资源简介：

360-1M是由华盛顿大学等机构创建的一个大规模360度视频数据集，包含超过100万段360度视频，旨在为3D场景理解和视图合成提供丰富的多视角数据。数据集通过从YouTube收集并筛选出1,076,592段360度视频，提取了80,567,325个独特帧，平均每段视频包含74.83帧。数据集的创建过程包括高效的帧对应搜索和相对相机姿态估计，以生成多视角数据。该数据集主要应用于3D场景重建和新视角合成，旨在解决现有数据集在规模和真实世界数据多样性方面的不足。

360-1M is a large-scale 360-degree video dataset developed by the University of Washington and other institutions, containing over 1 million 360-degree video segments. It aims to provide rich multi-view data for 3D scene understanding and view synthesis. The dataset collected and filtered 1,076,592 segments of 360-degree videos from YouTube, from which 80,567,325 unique frames were extracted, with an average of 74.83 frames per segment. The dataset creation process involves efficient frame correspondence search and relative camera pose estimation to generate multi-view data. This dataset is primarily used for 3D scene reconstruction and novel view synthesis, and is designed to address the limitations of existing datasets in terms of scale and diversity of real-world data.

提供机构：

华盛顿大学

创建时间：

2024-12-11

搜集汇总

数据集介绍

构建方式

360-1M数据集通过从YouTube上收集的100万段360度视频构建而成。为了高效地将这些视频转化为多视角数据，研究团队设计了一种可扩展的对应帧搜索方法。首先，视频以每秒1帧的速率进行采样，并通过Dust3R模型进行帧间相对姿态估计，筛选出具有高置信度的对应帧。随后，通过梯度下降优化帧间的相对姿态，确保视角对齐。最终，通过深度图融合解决了尺度模糊问题，生成了高质量的多视角数据集。

特点

360-1M数据集的显著特点在于其规模庞大且内容多样，涵盖了15个不同主题类别，从旅行到宠物等广泛领域。该数据集不仅提供了丰富的多视角对应帧，还通过360度视频的特性，允许从不同视角自由探索场景，极大地增强了模型的3D理解能力。此外，数据集的构建过程中采用了高效的对应帧搜索和姿态估计方法，确保了数据的高质量和可扩展性。

使用方法

360-1M数据集可用于训练和评估多种计算机视觉任务，尤其是新颖视角合成和3D场景重建。研究者可以通过该数据集训练扩散模型，生成真实世界场景的新颖视角，并进行几何一致的3D重建。使用时，研究者可以利用数据集中的多视角对应帧，结合ODIN模型进行视角条件下的扩散生成，并通过生成的多视角图像进一步进行3D场景重建。数据集的开源特性也为研究者提供了灵活的使用方式，支持多种实验和应用场景。

背景与挑战

背景概述

360-1M数据集由华盛顿大学、芝加哥丰田理工学院、哈佛大学、艾伦人工智能研究所和康奈尔大学的研究人员共同创建，旨在解决真实世界场景的三维理解和生成问题。该数据集于2024年发布，包含从YouTube收集的100万段360度视频，提供了迄今为止最大规模的真实世界多视角数据。其核心研究问题是如何从大规模360度视频中高效提取多视角对应帧，并利用这些数据训练模型以生成真实世界场景的新视角图像和三维重建。360-1M的发布对计算机视觉、图形学和机器人学领域具有重要意义，尤其是在三维场景理解和生成方面，为相关研究提供了丰富的数据资源。

当前挑战

360-1M数据集的构建面临多重挑战。首先，从标准视频中寻找具有不同视角且内容对应的帧非常困难，因为摄像机的轨迹在拍摄时是固定的，难以捕捉到同一物体的多视角图像。其次，计算每对帧之间的对应关系成本高昂，导致大规模搜索变得不可行。此外，现有结构从运动算法（如COLMAP）在处理大量图像时速度较慢，限制了数据集的扩展。为了应对这些挑战，研究人员开发了一种基于360度视频的高效对应帧搜索方法，并通过扩散模型ODIN实现了真实世界场景的新视角合成和三维重建。然而，如何进一步提高模型的动态场景处理能力，以及如何在更大规模上扩展数据集，仍然是未来的研究方向。

常用场景

经典使用场景

360-1M数据集的经典使用场景主要集中在多视角场景理解和3D重建任务中。通过利用360°视频的多样性视角，研究人员可以训练模型生成真实世界场景的新视角图像，并从中推断出场景的几何结构和布局。这种能力在机器人导航、虚拟现实和增强现实等领域具有广泛的应用潜力。

衍生相关工作

基于360-1M数据集，许多相关工作得以展开，尤其是在新视角合成和3D重建领域。例如，ODIN模型通过该数据集实现了从单张图像生成多视角场景的能力，显著提升了3D重建的精度。此外，360-1M还启发了其他研究者探索如何利用大规模360°视频数据进行动态场景建模和4D重建，进一步推动了计算机视觉和图形学领域的发展。

数据集最近研究