DroneMotion-99k

github2024-12-16 更新2024-12-17 收录

下载链接：

https://github.com/hou-yz/dvgformer

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含通过在线视频进行3D重建收集的99k高质量轨迹，通过连接连续帧的相机姿态来形成3D相机路径，并使用卡尔曼滤波器识别和删除低质量数据。

This dataset includes 99k high-quality trajectories collected for 3D reconstruction from online videos. These trajectories are formed by connecting camera poses across consecutive frames to generate 3D camera paths, and low-quality data are identified and removed using the Kalman filter.

创建时间：

2024-12-09

原始信息汇总

DVGFormer: Learning Camera Movement Control from Real-World Drone Videos

数据集概述

数据集名称: DroneMotion-99k
数据集描述: 该数据集包含99,003条高质量的3D相机轨迹，这些轨迹是通过对在线视频进行3D重建并连接连续帧的相机姿态生成的。数据集还包括过滤后的相机运动序列。
数据集大小:
- 完整数据集: 13,653个视频，99,003条相机轨迹。
- 最小数据集: 10个视频，129条相机轨迹。
数据格式: HDF5
数据下载链接:
- 完整数据集: 链接
- 最小数据集: 链接

数据处理

视频下载与帧提取: 由于YouTube政策，无法直接分享视频MP4文件或帧。提供了一个Python脚本download_videos.py，用于自动下载视频并提取帧。 python python download_videos.py --hdf5_fpath youtube_drone_videos/dataset_mini.h5 python download_videos.py --hdf5_fpath youtube_drone_videos/dataset_full.h5
调整下载与提取参数: 可以通过指定--num_download_workers或--num_extract_workers来调整下载过程或帧提取过程的并行工作数。

数据集结构

下载后的文件夹结构:

dvgformer/ ├── youtube_drone_videos/ │ ├── dataset_full.h5/ │ └── dataset_mini.h5/ ├── src/ ├── README.md ...

引用

@article{hou2024dvgformer, author = {Hou, Yunzhong and Zheng, Liang and Torr, Philip}, title = {Learning Camera Movement Control from Real-World Drone Videos}, journal = {arXiv preprint}, year = {2024}, }

搜集汇总

数据集介绍

构建方式

DroneMotion-99k数据集通过从在线视频中收集真实世界的无人机拍摄数据构建而成。具体而言，研究团队利用3D重建技术对在线视频进行处理，从连续帧中提取相机姿态，并通过连接这些姿态形成3D相机路径。为确保数据质量，研究中采用了卡尔曼滤波器来识别并去除低质量的重建数据，从而筛选出99,003条高质量的相机轨迹。

特点

该数据集的显著特点在于其大规模的真实世界数据和多样化的运动模式。通过从在线视频中提取数据，DroneMotion-99k不仅涵盖了丰富的视角和复杂的运动轨迹，还避免了传统模拟训练中外观多样性不足的问题。此外，数据集中的轨迹经过严格筛选，确保了数据的准确性和可靠性，为相机运动控制研究提供了坚实的基础。

使用方法

使用DroneMotion-99k数据集时，用户可以下载包含3D重建结果和过滤后的相机运动序列的HDF5文件。数据集提供了脚本帮助用户自动下载对应的YouTube视频并提取帧。用户可以通过调整下载和帧提取过程中的工作线程数来优化数据处理效率。此外，数据集还提供了训练和推理的代码示例，方便用户进行模型训练和评估。

背景与挑战

背景概述

无人机视频的自动化拍摄控制近年来成为计算机视觉与人工智能领域的热点研究方向。DroneMotion-99k数据集由Yunzhong Hou、Liang Zheng和Philip Torr等研究人员于2024年创建，旨在解决从真实世界无人机视频中自动提取高质量摄像机运动轨迹的问题。该数据集通过从在线视频中进行3D重建，提取了99,003条高质量的摄像机轨迹，并通过Kalman滤波剔除了低质量数据。其核心研究问题是如何在不依赖模拟训练和人工标注的情况下，实现复杂场景下的摄像机运动控制，从而为无人机视频拍摄提供自动化解决方案。该数据集的发布对无人机视频拍摄、计算机视觉和自动化控制等领域具有重要影响。

当前挑战

DroneMotion-99k数据集在构建过程中面临多项挑战。首先，无人机视频的多样性和复杂性使得摄像机轨迹的提取变得困难，尤其是在处理低质量或不稳定的视频时。其次，数据集的构建需要大量的计算资源和时间，尤其是在进行3D重建和轨迹连接时。此外，由于无人机视频的视角和运动模式多样，如何设计有效的模型来预测未来的摄像机运动也是一个重要挑战。最后，数据集的规模和多样性要求模型具备高度的泛化能力，以应对不同场景下的摄像机运动控制任务。

常用场景

经典使用场景

DroneMotion-99k数据集的经典使用场景主要集中在无人机视频的自动摄像控制领域。该数据集通过收集99,000条高质量的摄像机轨迹，为研究者提供了一个丰富的资源库，用于训练和验证自动摄像机运动控制算法。这些轨迹通过3D重建技术从真实世界的无人机视频中提取，涵盖了多种复杂的运动模式和视角变化，特别适用于开发能够自动生成高质量视频的智能系统。

衍生相关工作

DroneMotion-99k数据集的发布催生了一系列相关研究工作，特别是在无人机摄像控制和视频生成领域。许多研究者基于该数据集开发了新的算法和模型，如DVGFormer，它利用自回归Transformer架构来预测摄像机的运动轨迹。此外，该数据集还激发了对3D场景重建、摄像机姿态估计等技术的进一步研究，推动了整个领域的技术进步和创新。

数据集最近研究