FlyingThings3D, Monkaa, Driving

arXiv2015-12-08 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/1512.02134v1

下载链接

链接失效反馈

官方服务：

资源简介：

本研究提出了三个大型合成立体视频数据集：FlyingThings3D、Monkaa和Driving，旨在训练和评估场景流方法。这些数据集通过定制的Blender 3D创建套件生成，包含超过35000个立体帧，提供密集的地面实况数据，包括光流、视差和视差变化等。数据集内容丰富，包括立体彩色图像、双向视差、双向光流和视差变化、运动边界和对象分割。此外，还提供了完整的相机校准和3D点位置信息。这些数据集的应用领域广泛，特别是在高级驾驶员辅助系统和自主系统中，为深度学习研究提供了重要的数据支持。

This study proposes three large-scale synthetic stereo video datasets: FlyingThings3D, Monkaa, and Driving, which are designed for training and evaluating scene flow methods. These datasets are generated using a customized Blender 3D creation suite, containing over 35,000 stereo frames and providing dense ground-truth data including optical flow, disparity, and disparity change, among others. The datasets feature rich content, including stereo color images, bidirectional disparity, bidirectional optical flow, disparity change, motion boundaries, and object segmentation. Additionally, comprehensive camera calibration and 3D point position information are provided. These datasets have wide application domains, particularly in Advanced Driver Assistance Systems (ADAS) and autonomous systems, providing critical data support for deep learning research.

提供机构：

弗莱堡大学慕尼黑工业大学

创建时间：

2015-12-08

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，三维场景流估计作为深度与运动重建的核心任务，其发展长期受限于高质量标注数据的匮乏。为突破这一瓶颈，研究团队基于开源三维创作套件Blender构建了一套大规模合成数据集，涵盖FlyingThings3D、Monkaa与Driving三个子集。通过定制化渲染管线，系统不仅生成立体RGB图像，还额外输出每帧的三维位置通道，完整记录场景点在当前、过去及未来时刻的坐标。基于这些信息，可精确推导出双向视差、双向光流及视差变化等稠密真值，即使在遮挡区域亦能保持标注一致性。数据生成过程充分利用了自动化流程与丰富资产库，确保了数据的规模与多样性。

特点

该数据集在场景流研究领域具有显著优势，其标注覆盖了完整的场景流任务所需的所有组件，包括稠密视差、光流、视差变化、运动边界及对象分割掩码。与现有数据集相比，它提供了前所未有的数据规模，例如FlyingThings3D子集包含超过2.5万帧训练数据，远超同期其他选项。数据呈现高度多样性，涵盖从随机飞行的日常物体到拟真的驾驶场景，且通过“清洁”与“最终”两个版本分别提供无退化与包含运动模糊等后期效果的图像，增强了模型的泛化能力。此外，所有帧均附带完整的相机内外参数，支持更广泛的三维视觉任务。

使用方法

该数据集主要应用于训练与评估卷积神经网络在视差、光流及场景流估计方面的性能。研究人员可依据任务需求，选择特定子集进行模型训练，例如利用FlyingThings3D的大规模数据预训练网络，再在Monkaa或Driving等更具特定领域特性的数据上进行微调。数据提供的多模态真值允许进行端到端的联合学习，亦支持各子任务的独立训练。在评估阶段，数据集提供的测试帧可用于量化分析模型在合成与真实场景下的泛化能力。此外，其丰富的标注信息也适用于计算机视觉中结构恢复、运动分割等衍生研究。

背景与挑战

背景概述

在计算机视觉领域，场景流估计作为三维重建与运动分析的核心任务，长期以来因缺乏大规模标注数据而进展缓慢。2015年，弗莱堡大学与慕尼黑工业大学的研究团队联合发布了FlyingThings3D、Monkaa和Driving三个合成立体视频数据集，旨在为视差、光流和场景流的联合估计提供充足的训练与评估资源。该数据集通过Blender引擎渲染生成，涵盖数万帧高分辨率图像，并首次提供了密集且精确的全场景流真值，包括双向视差、光流及视差变化等多维度标注。其创建不仅推动了卷积网络在三维运动估计中的应用，更为自动驾驶、增强现实等高端视觉系统奠定了数据基础。

当前挑战

该数据集致力于解决场景流估计这一复杂视觉任务的挑战，其核心在于同时恢复三维空间结构（深度）与运动（三维运动矢量），这要求模型具备处理遮挡、大位移及非刚性运动的能力。在构建过程中，研究团队面临多重挑战：一是确保合成数据的真实性与多样性，需通过随机化物体轨迹、纹理及光照来模拟自然场景；二是生成大规模密集真值的计算与存储开销极大，需优化渲染管线并采用高效压缩技术；三是保持数据在多任务（如视差与光流）间的一致性，避免因投影或时序误差导致标注冲突。这些挑战的克服，使得数据集成为训练深度网络的关键基石。

常用场景

经典使用场景

在计算机视觉领域，立体视觉与运动估计是三维场景理解的核心任务。FlyingThings3D、Monkaa和Driving数据集通过提供大规模、高质量的合成立体视频序列，为视差估计、光流估计和场景流估计等任务建立了标准化的训练与评估基准。这些数据集以其丰富的场景变化、精确的稠密标注和逼真的渲染效果，成为训练深度卷积网络的理想选择，尤其在需要大量标注数据以优化网络参数的监督学习范式中展现出独特价值。

解决学术问题

该数据集有效解决了场景流估计领域长期面临的数据匮乏问题。传统数据集如KITTI和Sintel在标注密度、场景多样性和数据规模上存在局限，难以支撑端到端的深度学习模型训练。本数据集通过合成渲染技术，首次提供了涵盖双向视差、双向光流、视差变化、运动边界和物体分割的完整场景流真值，使得联合估计三维结构与运动成为可能。其大规模特性显著降低了模型过拟合风险，为探索视差、光流与场景流之间的内在关联提供了数据基础。

衍生相关工作

基于该数据集衍生的经典工作主要包括DispNet系列架构及其扩展。DispNet采用编码器-解码器结构并引入跨层连接，实现了端到端的实时视差估计；DispNetCorr进一步融入一维相关层，显著提升了匹配精度。后续研究通过融合FlowNet与DispNet构建了SceneFlowNet，首次以卷积网络联合估计场景流分量。这些工作不仅推动了光流与立体匹配算法的融合，更催生了面向动态场景的三维重建新范式，为后续的RAFT-Stereo、CREStereo等先进方法奠定了架构与训练基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集