Move360

Name: Move360
Creator: 北京大学电子与计算机工程学院, 字节跳动公司
Published: 2024-12-13 02:59:56
License: 暂无描述

arXiv2024-12-13 更新2024-12-25 收录

下载链接：

https://lwq20020127.github.io/OmniDrag/

下载链接

链接失效反馈

官方服务：

更多采购需求

资源简介：

Move360是由北京大学电子与计算机工程学院和字节跳动公司联合创建的高质量全景视频数据集，旨在解决全景视频生成中运动控制的问题。该数据集包含超过1500个视频片段，涵盖多种场景，如室内空间、绿色景观、城市环境和夜间设置，这些视频由Insta360 Titan相机安装在拍摄车上采集。数据集的创建过程通过复杂的球面运动估计和轨迹提取，确保了数据的高质量和多样性。Move360数据集主要应用于虚拟现实和增强现实领域，旨在提升全景视频生成中的场景和对象级别的运动控制能力。

Move360 is a high-quality panoramic video dataset jointly created by the School of Electronic and Computer Engineering, Peking University and ByteDance, aiming to address the challenge of motion control in panoramic video generation. This dataset contains over 1,500 video clips covering diverse scenarios including indoor spaces, green landscapes, urban environments and nighttime settings, which were captured using an Insta360 Titan camera mounted on a shooting vehicle. The dataset's creation process, which involves sophisticated spherical motion estimation and trajectory extraction, ensures the high quality and diversity of the collected data. The Move360 dataset is primarily applied in the fields of virtual reality (VR) and augmented reality (AR), with the goal of enhancing motion control capabilities at both scene and object levels in panoramic video generation.

提供机构：

北京大学电子与计算机工程学院, 字节跳动公司

创建时间：

2024-12-13

搜集汇总

数据集介绍

构建方式

Move360数据集的构建基于对高质量全景视频的需求，特别是在虚拟现实和增强现实领域。为了捕捉大范围的场景和物体运动，研究团队将Insta360 Titan相机安装在拍摄车上，通过四个自由度（前后、左右、上下、水平旋转）的运动，捕捉了约20小时的原始视频素材。经过光学流筛选和手动审核，最终精选出1,580个视频片段，每个片段包含100帧，分辨率为7680×3840（8K），帧率为30 FPS。数据集涵盖了多种场景和光照条件，确保了其多样性和实用性。

特点

Move360数据集的特点在于其高质量和大范围的运动捕捉。数据集中的视频片段不仅涵盖了室内外多种场景，还包含了不同的光照条件（如白天、夜晚、晴天、阴天等）。此外，通过拍摄车的多自由度运动，数据集能够提供丰富的场景级和物体级运动数据，这对于训练和评估全景视频生成模型具有重要意义。数据集的多样性和高质量使其成为全景视频生成领域的宝贵资源。

使用方法

Move360数据集的使用方法主要围绕全景视频生成模型的训练和评估展开。研究人员可以利用该数据集训练模型，特别是那些需要大范围运动控制的模型，如OmniDrag。在训练过程中，数据集中的视频片段可以通过光学流和轨迹跟踪技术提取运动信号，进而用于指导视频生成。此外，数据集还可以用于评估生成模型在场景级和物体级运动控制上的性能，通过对比生成视频与真实视频的视觉质量和运动一致性，验证模型的有效性。

背景与挑战

背景概述

随着虚拟现实技术的普及，对沉浸式和动态的全景视频（ODV）可控生成的需求日益增长。尽管现有的文本到全景视频生成方法取得了显著成果，但由于仅依赖文本输入，这些方法在内容准确性和一致性方面存在不足。为了解决这些问题，北京大学与字节跳动的研究团队提出了OmniDrag方法，并创建了Move360数据集。该数据集旨在解决全景视频数据稀缺的问题，特别是包含大范围场景和物体运动的视频数据。Move360数据集由超过1,500个视频片段组成，涵盖了多样化的场景，显著提升了OmniDrag在场景级运动控制方面的能力。

当前挑战

Move360数据集的构建面临多重挑战。首先，全景视频的生成需要处理复杂的球形运动模式，而现有的2D视频生成方法难以直接应用于全景视频，容易导致空间失真。其次，全景视频通常以等距柱状投影（ERP）格式存储，用户在该格式下绘制合理的球形运动轨迹具有较高的难度。此外，现有的全景视频数据集大多包含有限的运动幅度，难以满足用户对大范围运动的需求。Move360数据集的构建过程中，研究人员通过将Insta360 Titan相机安装在拍摄车上，捕捉了包含大范围运动的视频片段，并通过光学流技术进行去扭曲和拼接，最终生成了高质量的全景视频数据。

常用场景

经典使用场景

Move360数据集在虚拟现实和增强现实领域中具有广泛的应用，尤其是在全景视频生成和运动控制方面。该数据集通过提供高质量的全景视频片段，支持研究人员开发能够生成动态、沉浸式全景视频的算法。OmniDrag方法利用Move360数据集，实现了从静态全景图像到动态视频的精确控制生成，用户可以通过简单的拖拽操作指定运动轨迹，生成具有场景级和对象级运动控制的全景视频。

解决学术问题

Move360数据集解决了全景视频生成领域中数据稀缺和运动控制不精确的问题。传统方法依赖于文本输入或光学流控制，往往导致生成内容的不准确和不一致。Move360通过提供包含大范围场景和对象运动的全景视频片段，显著提升了模型在复杂球形运动下的生成能力。OmniDrag方法结合Move360数据集，通过引入球形运动估计器和联合微调策略，有效解决了全景视频生成中的空间失真和运动控制难题。

衍生相关工作

Move360数据集的发布推动了全景视频生成领域的多项研究工作。基于该数据集，OmniDrag方法首次实现了全景图像到视频的运动控制生成，为后续研究提供了重要的参考。此外，Move360数据集还被用于改进现有的全景视频生成模型，如360DVD和DiffPano，进一步提升了这些模型在复杂运动场景下的表现。Move360的广泛应用为全景视频生成技术的发展奠定了坚实的基础，推动了虚拟现实和增强现实领域的创新。

以上内容由遇见数据集搜集并总结生成

社区讨论

#经验分享

【我遇到的问题】 • 现象：该数据集的下载链接已失效【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+

优质数据集

54 个

任务类型

进入经典数据集