Implicit-Zoo

Name: Implicit-Zoo
Creator: 苏黎世联邦理工学院计算机视觉实验室 2INSAIT, 索非亚大学
Published: 2024-06-25 18:20:44
License: 暂无描述

arXiv2024-06-25 更新2024-06-27 收录

下载链接：

https://github.com/qimaqi/Implicit-Zoo/

下载链接

链接失效反馈

官方服务：

资源简介：

Implicit-Zoo是由苏黎世联邦理工学院计算机视觉实验室和INSAIT, 索非亚大学共同创建的大型数据集，涵盖超过150万个神经隐式函数，用于2D图像和3D场景的研究。该数据集包含多种场景，如CIFAR-10、ImageNet-1K和Cityscapes用于2D图像任务，以及OmniObject3D用于3D视觉任务。创建过程中，通过严格的质检确保数据质量，并针对不同任务进行了优化。Implicit-Zoo的应用领域广泛，包括图像分类、语义分割和3D姿态回归等，旨在推动神经隐式函数在计算机视觉和图形学中的应用。

提供机构：

苏黎世联邦理工学院计算机视觉实验室 2INSAIT, 索非亚大学

创建时间：

2024-06-25

搜集汇总

数据集介绍

构建方式

Implicit-Zoo数据集是通过在数千个GPU训练日内，使用隐式神经网络对2D图像和3D场景进行建模而构建的。该数据集包括CIFAR-10、ImageNet-1K和Cityscapes等多样化的2D图像场景，以及OmniObject3D数据集用于3D视觉任务。数据集的构建过程包括严格的检查，以确保数据质量，并对低质量数据进行筛选或过滤。

特点

Implicit-Zoo数据集的特点在于其大规模和高质量。数据集包含超过150万个隐式函数，覆盖多种2D和3D任务。通过迭代训练和严格的PSNR阈值控制，数据集的质量得到了保证。此外，数据集还支持可学习的分词器，允许网络直接从数据集中学习分词过程，从而提高性能。

使用方法

使用Implicit-Zoo数据集的方法主要包括图像分类、语义分割和3D姿态回归等任务。对于图像分类和语义分割，数据集可以用于训练和评估视觉Transformer模型，并支持可学习的分词器。对于3D姿态回归，数据集可以用于训练神经网络模型，以直接回归2D图像相对于NeRF模型的3D相机姿态。数据集的使用需要适当的GPU计算资源，并且可以通过GitHub上的项目页面获取。

背景与挑战

背景概述

随着计算机视觉和图形学的不断发展，神经隐式函数在多个领域展现了其重要性。隐式函数能够以高保真度表示复杂形状和场景，并具备平滑插值和连续表示的能力。然而，由于缺乏全面的数据集和实现所需的大量计算资源，隐式函数的发展和评估一直受到限制。为了克服这些挑战，Qi Ma等人提出了“Implicit-Zoo”数据集。这个大规模数据集需要数千个GPU训练日，旨在促进该领域的研究和发展。数据集包括多样化的2D和3D场景，如CIFAR-10、ImageNet-1K和Cityscapes等，用于2D图像任务，以及OmniObject3D数据集用于3D视觉任务。通过严格的检查和筛选，确保数据质量。Implicit-Zoo数据集的发布对于推动神经隐式函数的研究和应用具有重要意义。

当前挑战

Implicit-Zoo数据集面临的挑战主要包括：1) 所解决的领域问题的挑战：尽管神经隐式函数在图像和3D场景建模方面具有优势，但其发展和分析一直受到缺乏全面数据集的限制。2) 构建过程中所遇到的挑战：构建大规模数据集需要大量的计算资源，如GPU训练时间。此外，为了确保数据质量，需要进行严格的数据检查和筛选。

常用场景

经典使用场景

Implicit-Zoo数据集在计算机视觉和图形学领域具有重要应用，尤其是在神经隐式函数的研究和开发中。其经典使用场景包括2D图像任务，如CIFAR-10、ImageNet-1K和Cityscapes，以及3D视觉任务，如OmniObject3D。该数据集通过高保真度、平滑插值能力和连续表示等优势，为研究人员提供了丰富的数据资源，以推动神经隐式函数的研究和发展。

衍生相关工作

Implicit-Zoo数据集衍生了多项相关经典工作，如学习token位置、直接回归3D相机姿态等。这些工作进一步推动了神经隐式函数的研究和发展，并为相关领域的应用提供了新的思路和方法。

数据集最近研究