FlyingThings3D, Hypersim, CLEVR, BEHAVIOR Vision Suite

github2025-01-04 更新2025-01-05 收录

下载链接：

https://github.com/freemty/Awesome-Synthetic-Data-for-Vision

下载链接

链接失效反馈

官方服务：

资源简介：

FlyingThings3D：用于训练卷积网络进行视差、光流和场景流估计的大型数据集。Hypersim：用于整体室内场景理解的逼真合成数据集。CLEVR：用于组合语言和基本视觉推理的诊断数据集。BEHAVIOR Vision Suite：通过模拟生成的可定制数据集。

FlyingThings3D: A large-scale dataset for training convolutional networks for disparity, optical flow, and scene flow estimation. Hypersim: A photorealistic synthetic dataset for holistic indoor scene understanding. CLEVR: A diagnostic dataset for compositional language and elementary visual reasoning. BEHAVIOR Vision Suite: A customizable dataset generated via simulation.

创建时间：

2025-01-04

原始信息汇总

数据集概述

数据集详情

数据集名称: Synthetic Data for Vision: Insights, Progress and Applications
数据集地址: https://github.com/freemty/Awesome-Synthetic-Data-for-Vision
数据集概述: 该数据集收集了关于计算机视觉研究中合成数据的当前进展的研究，涵盖了3D形状生成和3D感知图像生成等领域。

数据集内容

1. 数据集列表

FlyingThings3D: 用于训练卷积网络进行视差、光流和场景流估计的大规模数据集。
- 论文: CVPR 2016
- 项目页面: Project Page
Hypersim: 用于整体室内场景理解的逼真合成数据集。
- 论文: ICCV 2021
- 项目页面: Project Page
- 代码: Code
CLEVR: 用于组合语言和基本视觉推理的诊断数据集。
- 论文: CVPR2017
- 项目页面: Project Page
- 代码: Code
BEHAVIOR Vision Suite: 通过模拟生成可定制的数据集。
- 论文: CVPR2024
- 项目页面: Project Page
- 代码: Code
Kubric: 可扩展的数据集生成器。
- 论文: CVPR2022
- 项目页面: Project Page
- 代码: Code
PointOdyssey: 用于长期点跟踪的大规模合成数据集。
- 论文: ICCV 2023
- 项目页面: Project Page
- 代码: Code
EgoGen: 以自我为中心的合成数据生成器。
- 论文: CVPR 2024
- 项目页面: Project Page
- 代码: Code
MatrixCity: 用于城市规模神经渲染的大规模城市数据集。
- 论文: ICCV 2023
- 项目页面: Project Page
- 代码: Code
TartanAir: 用于推动视觉SLAM极限的数据集。
- 论文: IROS 2020
- 项目页面: Project Page
MotionSC: 用于动态环境中实时语义映射的数据集和网络。
- 论文: arxiv 2022
- 项目页面: Project Page
- 代码: Code

2. 应用领域

视觉表示学习
深度估计
运动估计
3D重建
视觉内容生成
自动驾驶与机器人

搜集汇总

数据集介绍

构建方式

FlyingThings3D、Hypersim、CLEVR和BEHAVIOR Vision Suite等数据集的构建均基于计算机视觉领域的合成数据生成技术。FlyingThings3D通过虚拟场景中的物体运动生成光流和场景流数据；Hypersim利用物理渲染技术创建高真实感的室内场景；CLEVR通过程序化生成包含复杂视觉推理问题的图像；BEHAVIOR Vision Suite则通过模拟器生成可定制的视觉数据集。这些数据集的构建均依赖于先进的渲染引擎和物理模拟技术，确保了数据的多样性和真实性。

特点

这些数据集在计算机视觉研究中具有显著特点。FlyingThings3D提供了大规模的光流和场景流数据，适用于运动估计任务；Hypersim以其高真实感的室内场景数据著称，支持全面的场景理解任务；CLEVR专注于视觉推理问题，提供了丰富的组合语言和视觉推理任务；BEHAVIOR Vision Suite则通过高度可定制的模拟环境，支持多样化的视觉任务生成。这些数据集不仅规模庞大，且具有高度的可控性和多样性，为计算机视觉研究提供了强有力的支持。

使用方法

这些数据集的使用方法主要围绕计算机视觉任务的训练和评估展开。FlyingThings3D可用于训练光流和场景流估计模型；Hypersim适用于室内场景理解、语义分割等任务；CLEVR则用于视觉推理模型的开发和测试；BEHAVIOR Vision Suite通过其可定制的模拟环境，支持用户生成特定任务的数据集。用户可通过GitHub获取相关代码和工具，按照项目页面提供的指南进行数据加载、预处理和模型训练，从而充分利用这些数据集进行科学研究。

背景与挑战

背景概述

FlyingThings3D、Hypersim、CLEVR和BEHAVIOR Vision Suite等数据集是计算机视觉领域中合成数据的重要代表。FlyingThings3D由德国弗莱堡大学的研究团队于2016年发布，旨在为视差、光流和场景流估计任务提供大规模训练数据。Hypersim由苹果公司于2021年推出，专注于室内场景的全面理解，提供了高度逼真的合成数据。CLEVR由斯坦福大学的研究团队于2017年发布，旨在解决组合语言和基础视觉推理问题。BEHAVIOR Vision Suite则于2024年发布，通过模拟生成可定制的数据集，支持复杂行为理解任务。这些数据集在推动计算机视觉研究，特别是在3D重建、场景理解和视觉推理等领域，发挥了重要作用。

当前挑战

这些数据集在构建和应用过程中面临多重挑战。首先，生成高质量且多样化的合成数据需要复杂的渲染技术和物理模拟，以确保数据的真实性和多样性。其次，合成数据与真实数据之间的域差距问题仍然存在，尽管合成数据能够提供大量标注信息，但其与真实场景的差异可能导致模型在实际应用中的性能下降。此外，数据集的规模和处理复杂性也对计算资源提出了较高要求，尤其是在生成大规模3D场景或复杂行为数据时，计算成本和时间开销显著增加。最后，如何有效利用合成数据进行模型训练，并确保其在真实场景中的泛化能力，仍然是一个亟待解决的问题。

常用场景

经典使用场景

FlyingThings3D数据集在计算机视觉领域中广泛应用于光流、视差和场景流的估计任务。该数据集通过生成大量合成图像对，提供了丰富的三维场景信息，使得研究人员能够训练和验证卷积神经网络在这些任务中的性能。其多样化的场景和复杂的运动模式为模型提供了极具挑战性的训练环境，从而推动了光流和场景流估计技术的发展。

衍生相关工作

FlyingThings3D数据集催生了许多经典的研究工作，如FlowNet、PWC-Net和RAFT等光流估计算法。这些算法通过在该数据集上进行训练和验证，显著提升了光流估计的精度和效率。此外，该数据集还为场景流估计任务提供了基础，推动了RAFT-3D等三维运动估计算法的发展，进一步拓展了计算机视觉在三维场景理解中的应用。

数据集最近研究