Video Depth in the Wild (VDW)

github2024-05-31 更新2024-06-06 收录

下载链接：

https://github.com/RaymondWang987/VDW_Dataset_Toolkits

下载链接

链接失效反馈

资源简介：

先前的视频深度数据集在多样性和容量上受限。为了弥补数据短缺并提升基于学习的视频深度模型的性能，我们精心制作了一个大规模的自然场景数据集，即Video Depth in the Wild (VDW)。据我们所知，我们的VDW数据集是目前最大且场景最多样的视频深度数据集。我们收集了来自多种数据源的立体视频。VDW测试集包含90个视频和12622帧，而VDW训练集包含14203个视频，超过200万帧（硬盘上8TB）。我们还提供了一个包含两个序列的VDW演示集。用户可以利用VDW官方工具包和演示序列来了解我们的数据处理流程。

Previous video depth datasets have been limited in diversity and scale. To address the data scarcity and enhance the performance of learning-based video depth models, we have meticulously curated a large-scale natural scene dataset, known as Video Depth in the Wild (VDW). To the best of our knowledge, our VDW dataset is currently the largest and most diverse video depth dataset available. We have collected stereo videos from various data sources. The VDW test set comprises 90 videos and 12,622 frames, while the VDW training set includes 14,203 videos, totaling over 2 million frames (8TB on disk). Additionally, we provide a VDW demonstration set containing two sequences. Users can utilize the official VDW toolkit and demonstration sequences to gain insights into our data processing workflow.

创建时间：

2024-05-31

原始信息汇总

数据集概述

数据集名称

VDW Dataset (Video Depth in the Wild)

数据集目的

提供一个大规模的自然场景视频深度数据集，以促进学习型视频深度模型的性能提升。
作为生成从立体视频中获取视差的全面代码库。

数据集规模

训练集：包含14203个视频，超过200万帧（8TB存储）。
测试集：包含90个视频，共12622帧。
演示集：包含两个序列。

数据集特点

目前是最大的视频深度数据集，具有最多样化的视频场景。
收集自多样化的数据源的立体视频。

数据集使用许可

数据集的元数据和工具包根据CC BY-NC-SA 4.0许可发布，仅限于学术和研究用途。

数据集生成工具

使用GMFlow生成视差。
使用Mask2Former和SegFormer进行天空分割。

数据集生成环境

需要两个conda环境：VDW和mask2former。
VDW环境基于python=3.6.13和pytorch==1.7.1。
mask2former环境基于python=3.8.13和pytorch==1.9.0。

数据集生成流程

使用PySceneDetect分割原始视频。
使用FFmpeg提取视频。
使用SegFormer和Mask2Former进行天空分割。
使用GMFlow生成视差。
根据光学流和有效掩码过滤不合格的视频。

数据集引用

@InProceedings{Wang_2023_ICCV, author = {Wang, Yiran and Shi, Min and Li, Jiaqi and Huang, Zihao and Cao, Zhiguo and Zhang, Jianming and Xian, Ke and Lin, Guosheng}, title = {Neural Video Depth Stabilizer}, booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)}, month = {October}, year = {2023}, pages = {9466-9476} }

AI搜集汇总

数据集介绍

构建方式

在视频深度领域，为了弥补现有数据集在多样性和规模上的不足，研究团队精心构建了名为Video Depth in the Wild (VDW)的大规模自然场景数据集。该数据集通过收集来自多种数据源的立体视频，利用先进的深度学习模型如GMFlow、SegFormer和Mask2Former生成视差图。具体构建过程中，首先使用PySceneDetect对原始视频进行分割，然后通过FFmpeg提取视频片段。接着，利用GMFlow模型生成光流和一致性检查掩码，同时使用SegFormer和Mask2Former进行天空分割，最终通过投票机制生成天空掩码。整个过程确保了数据的高质量和多样性，为视频深度模型的训练提供了坚实的基础。

特点

VDW数据集以其庞大的规模和丰富的场景多样性著称，是目前最大的视频深度数据集。其训练集包含超过200万帧的14203个视频，总容量达8TB，而测试集则包含90个视频和12622帧。此外，VDW数据集还提供了一个包含两个序列的演示集，用户可以通过官方工具包了解数据处理流程。数据集的构建严格遵循版权要求，仅提供元数据和详细工具包，确保学术和研究用途的合法性。

使用方法

使用VDW数据集时，用户首先需要安装必要的软件环境，包括VDW和mask2former两个conda环境，并配置相关依赖包如GMFlow、SegFormer和Mask2Former。随后，用户可以通过提供的工具包生成处理脚本，利用FFmpeg和PySceneDetect进行视频分割和帧提取。接着，运行生成的脚本进行数据生成，包括光流生成、天空分割和投票机制。最后，通过过滤不合格样本和进行后处理，用户可以生成高质量的视差数据，用于视频深度模型的训练和评估。

背景与挑战

背景概述

视频深度在野（Video Depth in the Wild, VDW）数据集由华中科技大学、Adobe Research和南洋理工大学联合提出，旨在解决现有视频深度数据集在多样性和规模上的局限性。该数据集的核心研究问题是如何在大规模自然场景中生成高质量的视频深度信息，以推动基于学习的视频深度模型的发展。VDW数据集的创建时间可追溯至2023年，其主要研究人员包括Yiran Wang、Min Shi、Jiaqi Li等，他们的研究成果在ICCV 2023上发表，题为《Neural Video Depth Stabilizer》。该数据集的推出对视频深度估计领域具有重要影响，提供了迄今为止最大规模和最多样化的视频深度数据，极大地促进了相关技术的进步。

当前挑战

VDW数据集在构建过程中面临多项挑战。首先，数据集的多样性和规模要求从多种数据源收集立体视频，这涉及到版权和隐私保护的复杂问题。其次，生成高质量的深度信息需要先进的计算模型，如GMFlow、SegFormer和Mask2Former，这些模型的集成和优化增加了数据处理的复杂性。此外，数据集的验证和过滤过程也极具挑战，需确保生成的深度信息准确且符合实际应用需求。最后，数据集的发布策略需严格遵守版权要求，确保不侵犯任何第三方权益，这限制了部分数据的公开，增加了数据使用的门槛。

常用场景

经典使用场景

在计算机视觉领域，Video Depth in the Wild (VDW) 数据集的经典使用场景主要集中在视频深度估计和立体视觉研究中。该数据集通过提供大规模的自然场景视频及其对应的深度信息，为研究人员提供了一个丰富的资源库，用于训练和验证深度学习模型。具体而言，VDW 数据集可用于开发和评估基于深度学习的视频深度估计模型，这些模型能够从立体视频中提取出精确的深度信息，从而在增强现实、自动驾驶和机器人导航等领域中发挥重要作用。

解决学术问题

VDW 数据集解决了视频深度估计领域中数据稀缺和多样性不足的问题。传统的视频深度数据集往往规模较小，场景单一，难以满足深度学习模型对大量多样化数据的需求。VDW 数据集通过收集和处理来自不同数据源的立体视频，提供了超过200万帧的高质量深度信息，极大地丰富了数据集的多样性和规模。这不仅推动了视频深度估计技术的发展，也为相关领域的研究提供了坚实的基础，具有重要的学术价值和影响力。

衍生相关工作

VDW 数据集的发布催生了一系列相关研究工作，特别是在视频深度估计和立体视觉领域。例如，基于 VDW 数据集的研究成果已经应用于开发更高效的深度估计算法，这些算法在处理复杂场景和动态物体时表现出色。此外，VDW 数据集还激发了关于数据集构建和处理方法的研究，推动了数据集标准化和质量评估方法的发展。这些衍生工作不仅提升了视频深度估计技术的水平，也为其他相关领域的研究提供了新的思路和方法。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集