Hypersim

Name: Hypersim
Creator: 苹果公司
Published: 2021-08-18 11:16:16
License: 暂无描述

arXiv2021-08-18 更新2024-06-21 收录

下载链接：

http://github.com/apple/ml-hypersim

下载链接

链接失效反馈

官方服务：

资源简介：

Hypersim是由苹果公司创建的一个用于室内场景全面理解的高真实度合成数据集。该数据集包含77,400张图像，涵盖461个室内场景，每张图像都附有详细的逐像素标签和相应的地面真实几何信息。数据集完全依赖公开可用的3D资产，包括每个场景的完整场景几何、材质信息和光照信息。此外，每张图像都包含密集的逐像素语义实例分割和完整的相机信息，以及将每张图像分解为漫反射反射、漫反射照明和一个捕捉视依赖光照效果的非漫反射残差项。Hypersim数据集适用于需要直接3D监督的几何学习问题、需要联合处理多种输入和输出模式的多任务学习问题，以及逆渲染问题。数据集的创建过程涉及从在线市场下载的场景集合，通过一个新颖的计算管道生成带有地面真实标签和相应几何的图像集合。通过分析场景、对象和像素级别的数据，以及在金钱、计算时间和标注努力方面的成本，研究发现从头开始生成整个数据集的成本大约是训练一个流行的开源自然语言处理模型成本的一半。此外，数据集在两个真实世界的场景理解任务——语义分割和3D形状预测——上进行了评估，发现预训练在Hypersim数据集上显著提高了两个任务的性能，并在最具挑战性的Pix3D测试集上达到了最先进水平。

Hypersim is a high-fidelity synthetic dataset created by Apple for comprehensive indoor scene understanding. This dataset contains 77,400 images spanning 461 indoor scenes, with each image paired with detailed per-pixel labels and corresponding ground-truth geometric information. The dataset exclusively relies on publicly available 3D assets, including full scene geometry, material information, and lighting data for every scene. Additionally, each image includes dense per-pixel semantic instance segmentation, complete camera metadata, and a decomposition of the image into diffuse reflection, diffuse illumination, and a non-diffuse residual term that captures view-dependent lighting effects. The Hypersim dataset is applicable to geometric learning tasks requiring direct 3D supervision, multi-task learning problems that jointly process diverse input and output modalities, as well as inverse rendering tasks. The dataset’s creation process involves collecting scene sets downloaded from online marketplaces, and generating a corpus of images with ground-truth labels and corresponding geometry via a novel computational pipeline. Following an analysis of costs across scene, object, and pixel-level data, as well as monetary expenses, computational time, and annotation efforts, research indicates that the total cost of generating the full dataset from scratch is roughly half the cost of training a popular open-source natural language processing model. Furthermore, the dataset was evaluated on two real-world scene understanding tasks: semantic segmentation and 3D shape prediction. Results show that pretraining on the Hypersim dataset significantly improves performance on both tasks, achieving state-of-the-art performance on the most challenging Pix3D test set.

提供机构：

苹果公司

创建时间：

2020-11-05

搜集汇总

数据集介绍

构建方式

Hypersim数据集的构建基于专业艺术家创建的大量合成场景，通过生成77,400张图像和461个室内场景的详细像素级标签和相应的几何信息来实现。该数据集的构建过程包括三个主要步骤：首先，使用一种新颖的视图采样启发式方法生成每个场景的相机视图，该方法不需要场景进行语义标记；其次，利用基于公共云计算服务的云渲染系统生成图像；最后，通过自建的交互式网格标注工具获取语义分割信息。

使用方法

Hypersim数据集适用于需要直接3D监督的几何学习问题、需要联合推理多输入和输出模态的多任务学习问题，以及逆渲染问题。研究人员可以通过预训练模型在数据集上进行训练，然后将其应用于实际场景理解任务，如语义分割和3D形状预测。数据集的全部渲染图像数据以及用于生成数据集和执行实验的代码均在线公开，便于复现和进一步研究。

背景与挑战

背景概述

Hypersim数据集由Apple公司的研究团队于2020年引入，旨在解决室内场景理解任务中难以获取真实图像的逐像素地面真值标签的问题。该数据集基于专业艺术家创建的大量合成场景，生成了77,400张图像，涵盖461个室内场景，并提供了详细的逐像素标签和相应的几何真值。Hypersim数据集的独特之处在于其完全依赖公开可用的3D资产，包括完整的场景几何、材质信息和光照信息，以及密集的逐像素语义实例分割和完整的相机信息。此外，每张图像都被分解为漫反射反射率、漫反射光照和一个捕捉视图依赖光照效果的非漫反射残差项。这些特性使得Hypersim数据集在需要直接3D监督的几何学习问题、多任务学习问题和逆渲染问题中具有广泛的应用前景。

当前挑战

Hypersim数据集在构建过程中面临多项挑战。首先，尽管合成数据在计算机视觉中具有重要作用，但现有合成数据集通常依赖于非公开的3D资产，限制了其在需要直接3D监督的几何学习问题中的应用。其次，许多合成数据集缺乏语义分割信息，或者分割粒度较低，无法提供语义上有意义的物体分割。此外，大多数数据集未将图像分解为解耦的光照和阴影成分，不适合逆渲染问题。Hypersim通过引入公开可用的3D资产、完整的场景几何和材质信息、密集的逐像素语义实例分割以及图像的解耦表示，成功解决了这些挑战。然而，如何确保合成数据与真实数据之间的域适应性，以及如何在有限的计算资源下高效生成大规模、高质量的合成数据，仍是未来研究的重要方向。

常用场景

经典使用场景

Hypersim数据集在室内场景理解任务中展现了其经典应用，特别是在语义分割和3D形状预测方面。通过提供详细的逐像素标签和相应的几何信息，该数据集支持了多种计算机视觉任务，如场景重建、物体检测和光照估计。其高保真度的图像和完整的场景几何信息使得研究人员能够开发和验证复杂的算法，从而推动了室内场景理解的边界。

解决学术问题

Hypersim数据集解决了在真实图像中难以或无法获取逐像素地面真值标签的问题，这对于许多基础场景理解任务至关重要。通过提供一个包含77,400张图像和461个室内场景的合成数据集，Hypersim为研究人员提供了一个可控的环境，用于测试和改进他们的算法。这不仅降低了数据收集的成本和复杂性，还提高了算法的鲁棒性和准确性，特别是在光照和材质变化较大的室内环境中。

实际应用

在实际应用中，Hypersim数据集可以用于训练和验证自动驾驶汽车、机器人导航和增强现实系统中的视觉算法。例如，自动驾驶汽车需要精确理解其周围环境，包括识别和定位物体、理解光照条件和材质属性。通过使用Hypersim数据集，开发人员可以在受控的合成环境中测试和优化这些算法，然后再将其部署到真实世界中，从而提高系统的安全性和可靠性。

数据集最近研究