ImageNet-PD

Hugging Face2024-07-12 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/prakashchhipa/ImageNet-PD

下载链接

链接失效反馈

官方服务：

资源简介：

ImageNet-PD是一个新的基准数据集，用于评估模型对图像中视觉概念由于透视畸变导致的形状、大小、方向、角度和其他空间关系变化的鲁棒性。该数据集是从ImageNet验证集中通过合成不同方向的畸变而得，包含八个子集，其中四个对应四个方向（左、右、上、下）并带有黑色背景，另外四个子集具有相同的方向但使用边界像素进行集成填充背景。透视畸变在现实世界图像中普遍存在，对开发计算机视觉应用提出了重大挑战，因此ImageNet-PD的开发对于评估和提高模型对透视畸变的鲁棒性具有重要意义。

ImageNet-PD is a novel benchmark dataset for evaluating the robustness of computer vision models to changes in shape, size, orientation, angle, and other spatial relationships of visual concepts in images induced by perspective distortion. This dataset is constructed from the ImageNet validation set via synthesizing perspective distortions with varying orientations, and it consists of eight subsets: four correspond to the four cardinal directions (left, right, up, down) with black backgrounds, while the remaining four subsets adopt the same orientations but use boundary pixel integration to pad their backgrounds. Perspective distortion is ubiquitous in real-world images and poses substantial challenges to the development of computer vision applications. Thus, the creation of ImageNet-PD holds great significance for evaluating and enhancing the robustness of models against perspective distortion.

创建时间：

2024-07-12

原始信息汇总

ImageNet-PD 数据集概述

数据集简介

ImageNet-PD 是一个用于评估模型对图像中视觉概念因透视畸变导致的形状、大小、方向、角度及其他空间关系变化的鲁棒性的新基准数据集。该数据集源自 ImageNet 验证集，通过合成不同方向的畸变而得。

数据集组成

ImageNet-PD 包含八个子集：

四个子集对应四个方向（左、右、上、下），背景为黑色（PD-L, PD-R, PD-T, PD-B）。
另外四个子集具有相同的方向，但背景使用边界像素进行集成填充（PD-LI, PD-RI, PD-TI, PD-BI）。

数据集目的

透视畸变（PD）在现实世界图像中普遍存在，对开发计算机视觉应用构成重大挑战。PD 由相机位置、深度、焦距和镜头畸变等内在参数以及旋转和位移等外在参数引起，这些因素共同影响 3D 场景到 2D 平面的投影，影响语义解释和局部几何结构。准确估计这些参数以进行 PD 校正非常困难，这成为创建鲁棒计算机视觉（CV）方法的主要障碍。

引用信息

使用 ImageNet-PD 数据集时，建议引用以下出版物： Chhipa, P.C., Chippa, M.S., De, K., Saini, R., Liwicki, M., Shah, M.: Möbius transform for mitigating perspective distortions in representation learning. European Conference on Computer Vision (2024).

搜集汇总

数据集介绍

构建方式

ImageNet-PD数据集旨在评估视觉模型在透视畸变下的鲁棒性，其构建基于ImageNet验证集，通过合成不同方向的透视畸变生成。该数据集包含八个子集，分别对应四个方向（左、右、上、下）的黑色背景版本（PD-L, PD-R, PD-T, PD-B）以及使用边界像素填充背景的版本（PD-LI, PD-RI, PD-TI, PD-BI）。这种构建方式使得数据集能够全面覆盖透视畸变的各种表现形式，为模型评估提供了多样化的测试场景。

使用方法

ImageNet-PD数据集主要用于评估计算机视觉模型在透视畸变条件下的鲁棒性。研究人员可以通过加载数据集中的不同子集，测试模型在不同畸变方向及背景条件下的表现。使用该数据集时，建议结合相关文献中的Möbius变换方法进行模型优化，以提升模型对透视畸变的适应能力。此外，用户可通过访问项目主页获取源代码和预训练模型，进一步探索透视畸变校正的前沿技术。

背景与挑战

背景概述

ImageNet-PD数据集由Prakash Chhipa等研究人员于2024年提出，旨在评估计算机视觉模型在面对透视畸变时的鲁棒性。该数据集基于ImageNet验证集，通过合成不同方向的透视畸变生成，包含八个子集，分别对应四种方向（左、右、上、下）及其带有填充背景的变体。透视畸变在现实世界图像中普遍存在，由相机位置、深度、焦距等内外参数共同作用导致，对语义理解和局部几何特征产生显著影响。ImageNet-PD的提出为计算机视觉领域提供了一个新的基准，推动了模型在复杂场景下的性能评估与优化。

当前挑战

ImageNet-PD数据集的核心挑战在于解决透视畸变对计算机视觉模型性能的影响。透视畸变导致图像中的形状、大小、方向等空间关系发生变化，增加了模型对视觉概念的理解难度。构建过程中，研究人员需精确模拟不同方向的畸变效果，并确保数据集的多样性与代表性。此外，如何在不损失语义信息的前提下生成高质量的畸变图像，以及如何评估模型在不同畸变条件下的鲁棒性，均是构建该数据集时面临的技术难题。这些挑战为计算机视觉领域的研究提供了新的方向与动力。

常用场景

经典使用场景

ImageNet-PD数据集主要用于评估计算机视觉模型在面对图像中由于透视畸变引起的形状、大小、方向和角度等空间关系变化时的鲁棒性。该数据集通过合成不同方向的畸变，提供了八个子集，分别对应四个方向（左、右、上、下）以及带有黑色背景和边界像素填充背景的版本。这使得研究者能够在控制条件下测试模型对透视畸变的适应能力。

解决学术问题

ImageNet-PD解决了计算机视觉领域中一个关键问题：模型在面对现实世界中普遍存在的透视畸变时的鲁棒性。透视畸变由相机位置、深度、焦距、镜头畸变等内外参数共同作用产生，影响3D场景到2D平面的投影，进而影响语义解释和局部几何结构。通过提供标准化的测试环境，ImageNet-PD为开发更鲁棒的计算机视觉方法提供了重要支持。

实际应用

在实际应用中，ImageNet-PD数据集可用于优化自动驾驶、增强现实（AR）和虚拟现实（VR）等领域的视觉算法。例如，在自动驾驶中，车辆摄像头捕捉的图像可能因视角变化而产生畸变，影响目标检测和场景理解的准确性。通过使用ImageNet-PD进行模型训练和评估，可以显著提升算法在复杂环境下的表现。

数据集最近研究