360-1M
收藏arXiv2024-12-11 更新2024-12-12 收录
下载链接:
https://mattwallingford.github.io/ODIN/
下载链接
链接失效反馈资源简介:
360-1M是由华盛顿大学等机构创建的一个大规模360度视频数据集,包含超过100万段360度视频,旨在为3D场景理解和视图合成提供丰富的多视角数据。数据集通过从YouTube收集并筛选出1,076,592段360度视频,提取了80,567,325个独特帧,平均每段视频包含74.83帧。数据集的创建过程包括高效的帧对应搜索和相对相机姿态估计,以生成多视角数据。该数据集主要应用于3D场景重建和新视角合成,旨在解决现有数据集在规模和真实世界数据多样性方面的不足。
360-1M is a large-scale 360-degree video dataset created by the University of Washington and other institutions, containing over one million 360-degree video segments. It aims to provide abundant multi-view data for 3D scene understanding and view synthesis. The dataset collects and filters 1,076,592 segments of 360-degree videos from YouTube, extracting 80,567,325 unique frames, with an average of 74.83 frames per video segment. The dataset construction process includes efficient frame correspondence search and relative camera pose estimation to generate multi-view data. This dataset is mainly applied to 3D scene reconstruction and novel view synthesis, aiming to address the shortcomings of existing datasets in terms of scale and diversity of real-world data.
提供机构:
华盛顿大学
创建时间:
2024-12-11
AI搜集汇总
数据集介绍

构建方式
360-1M数据集通过从YouTube上收集的100万段360度视频构建而成。为了高效地将这些视频转化为多视角数据,研究团队设计了一种可扩展的对应帧搜索方法。首先,视频以每秒1帧的速率进行采样,并通过Dust3R模型进行帧间相对姿态估计,筛选出具有高置信度的对应帧。随后,通过梯度下降优化帧间的相对姿态,确保视角对齐。最终,通过深度图融合解决了尺度模糊问题,生成了高质量的多视角数据集。
特点
360-1M数据集的显著特点在于其规模庞大且内容多样,涵盖了15个不同主题类别,从旅行到宠物等广泛领域。该数据集不仅提供了丰富的多视角对应帧,还通过360度视频的特性,允许从不同视角自由探索场景,极大地增强了模型的3D理解能力。此外,数据集的构建过程中采用了高效的对应帧搜索和姿态估计方法,确保了数据的高质量和可扩展性。
使用方法
360-1M数据集可用于训练和评估多种计算机视觉任务,尤其是新颖视角合成和3D场景重建。研究者可以通过该数据集训练扩散模型,生成真实世界场景的新颖视角,并进行几何一致的3D重建。使用时,研究者可以利用数据集中的多视角对应帧,结合ODIN模型进行视角条件下的扩散生成,并通过生成的多视角图像进一步进行3D场景重建。数据集的开源特性也为研究者提供了灵活的使用方式,支持多种实验和应用场景。
背景与挑战
背景概述
360-1M数据集由华盛顿大学、芝加哥丰田理工学院、哈佛大学、艾伦人工智能研究所和康奈尔大学的研究人员共同创建,旨在解决真实世界场景的三维理解和生成问题。该数据集于2024年发布,包含从YouTube收集的100万段360度视频,提供了迄今为止最大规模的真实世界多视角数据。其核心研究问题是如何从大规模360度视频中高效提取多视角对应帧,并利用这些数据训练模型以生成真实世界场景的新视角图像和三维重建。360-1M的发布对计算机视觉、图形学和机器人学领域具有重要意义,尤其是在三维场景理解和生成方面,为相关研究提供了丰富的数据资源。
当前挑战
360-1M数据集的构建面临多重挑战。首先,从标准视频中寻找具有不同视角且内容对应的帧非常困难,因为摄像机的轨迹在拍摄时是固定的,难以捕捉到同一物体的多视角图像。其次,计算每对帧之间的对应关系成本高昂,导致大规模搜索变得不可行。此外,现有结构从运动算法(如COLMAP)在处理大量图像时速度较慢,限制了数据集的扩展。为了应对这些挑战,研究人员开发了一种基于360度视频的高效对应帧搜索方法,并通过扩散模型ODIN实现了真实世界场景的新视角合成和三维重建。然而,如何进一步提高模型的动态场景处理能力,以及如何在更大规模上扩展数据集,仍然是未来的研究方向。
常用场景
经典使用场景
360-1M数据集的经典使用场景主要集中在多视角场景理解和3D重建任务中。通过利用360°视频的多样性视角,研究人员可以训练模型生成真实世界场景的新视角图像,并从中推断出场景的几何结构和布局。这种能力在机器人导航、虚拟现实和增强现实等领域具有广泛的应用潜力。
衍生相关工作
基于360-1M数据集,许多相关工作得以展开,尤其是在新视角合成和3D重建领域。例如,ODIN模型通过该数据集实现了从单张图像生成多视角场景的能力,显著提升了3D重建的精度。此外,360-1M还启发了其他研究者探索如何利用大规模360°视频数据进行动态场景建模和4D重建,进一步推动了计算机视觉和图形学领域的发展。
数据集最近研究
最新研究方向
360-1M数据集的最新研究方向主要集中在利用大规模360度视频数据进行多视角合成和3D场景重建。该数据集通过提供丰富的真实世界多视角数据,推动了基于扩散模型的视图合成技术的发展。研究者们通过训练ODIN模型,展示了从单一图像生成多视角场景的能力,并显著提升了在标准视图合成和3D重建基准上的性能。此外,研究还探索了动态场景下的视图合成问题,提出了运动掩蔽技术以应对视频中的动态物体,进一步扩展了数据集的应用范围。这些研究不仅在计算机视觉领域具有重要意义,还为增强现实、虚拟现实和机器人导航等应用提供了新的可能性。
相关研究论文
- 1From an Image to a Scene: Learning to Imagine the World from a Million 360 Videos华盛顿大学 · 2024年
以上内容由AI搜集并总结生成



