OoD-ViT-NAS
收藏arXiv2025-01-07 更新2025-01-09 收录
下载链接:
https://hosytuyen.github.io/projects/OoD-ViT-NAS
下载链接
链接失效反馈官方服务:
资源简介:
OoD-ViT-NAS是由新加坡科技设计大学创建的一个基准测试数据集,旨在评估Vision Transformer(ViT)在分布外(OoD)泛化能力上的表现。该数据集包含3000个ViT架构,涵盖了广泛的计算预算,并在8个常见的OoD数据集上进行了评估,包括ImageNet-C、ImageNet-A等。数据集通过One-Shot NAS方法构建,利用预训练的超网络权重来高效生成子网络架构。该数据集的应用领域主要集中在计算机视觉中的OoD泛化问题,旨在解决ViT架构在真实世界场景中的泛化能力不足的问题。
OoD-ViT-NAS is a benchmark dataset developed by the Singapore University of Technology and Design, aimed at evaluating the out-of-distribution (OoD) generalization performance of Vision Transformers (ViTs). This dataset includes 3000 ViT architectures spanning a wide range of computational budgets, and has been evaluated on 8 common OoD datasets such as ImageNet-C, ImageNet-A, and others. Constructed via the One-Shot NAS method, the dataset leverages pre-trained supernetwork weights to efficiently generate subnet architectures. Its application mainly focuses on OoD generalization problems in computer vision, with the goal of addressing the insufficient generalization capability of ViT architectures in real-world scenarios.
提供机构:
新加坡科技设计大学
创建时间:
2025-01-07
搜集汇总
数据集介绍

构建方式
OoD-ViT-NAS数据集的构建采用了One-Shot NAS方法,具体基于Autoformer搜索空间。通过从预训练的超网络中采样3000个不同的ViT架构,这些子网络继承了超网络的权重,确保了其性能与单独训练的架构相当甚至更优。该数据集涵盖了广泛的模型计算预算,并在8个常见的大规模OoD数据集上进行了评估,包括ImageNet-C、ImageNet-A、ImageNet-O等。这种构建方式不仅高效,还为OoD泛化分析提供了丰富的架构多样性。
特点
OoD-ViT-NAS数据集的特点在于其全面性和多样性。首先,它包含了3000个不同的ViT架构,涵盖了从低计算预算到高计算预算的广泛范围。其次,这些架构在8个OoD数据集上进行了评估,涵盖了常见的OoD偏移类型,如模糊、噪声、天气影响等。此外,数据集还揭示了ViT架构设计对OoD泛化的显著影响,特别是嵌入维度的增加通常能够提升OoD泛化性能。这些特点使得OoD-ViT-NAS成为研究ViT架构设计对OoD泛化影响的重要基准。
使用方法
OoD-ViT-NAS数据集的使用方法主要包括以下几个方面:首先,研究人员可以通过该数据集评估不同ViT架构在OoD数据上的泛化能力,特别是通过嵌入维度、网络深度等架构属性的变化来探索其对OoD性能的影响。其次,该数据集可用于研究训练无关的NAS方法在OoD泛化中的表现,特别是通过简单的代理指标(如参数量和浮点运算量)来预测OoD精度。最后,研究人员可以利用该数据集进行ViT架构设计的优化,特别是在OoD泛化方面的改进。数据集和代码已公开,便于进一步的研究和应用。
背景与挑战
背景概述
OoD-ViT-NAS是由新加坡科技设计大学(SUTD)的研究团队于2025年提出的首个专注于Vision Transformer(ViT)在分布外(Out-of-Distribution, OoD)泛化能力上的神经架构搜索(NAS)基准。该数据集旨在解决ViT在真实场景中面临的关键挑战,即如何在分布外数据上保持泛化能力。OoD-ViT-NAS包含了3000个不同计算预算的ViT架构,并在8个常见的大规模OoD数据集上进行了评估。通过这一基准,研究团队揭示了ViT架构设计对OoD泛化能力的显著影响,并发现现有的基于分布内(In-Distribution, ID)准确率的架构设计并不能很好地推广到OoD场景。这一基准的发布为ViT架构设计在OoD泛化领域的研究提供了重要的参考和推动力。
当前挑战
OoD-ViT-NAS面临的挑战主要体现在两个方面。首先,在领域问题上,ViT在OoD数据上的泛化能力与ID数据上的表现并不高度相关,这意味着仅优化ID准确率的架构设计可能无法在OoD场景中取得良好表现。其次,在构建过程中,由于ViT的高计算需求和内存消耗,构建一个包含3000个架构的基准需要大量的计算资源和时间。此外,现有的无训练NAS方法在预测OoD准确率时表现不佳,尽管它们在预测ID准确率时有效。研究还发现,简单的代理指标(如参数量或浮点运算量)在预测ViT的OoD准确率时优于复杂的无训练NAS方法,这为未来的NAS研究提出了新的挑战。
常用场景
经典使用场景
OoD-ViT-NAS数据集主要用于研究Vision Transformer(ViT)在分布外(Out-of-Distribution, OoD)场景下的泛化能力。该数据集通过评估3000种不同计算预算的ViT架构在8个常见的OoD数据集上的表现,为研究者提供了一个系统化的基准,用于分析ViT架构设计对OoD泛化的影响。
实际应用
OoD-ViT-NAS的实际应用场景包括计算机视觉中的鲁棒性模型设计,尤其是在面对数据分布变化时,如自动驾驶、医疗影像分析等领域。通过该数据集,研究者可以设计出更具鲁棒性的ViT模型,提升模型在真实世界复杂环境中的表现。
衍生相关工作
OoD-ViT-NAS的推出催生了一系列相关研究,尤其是在ViT架构设计和OoD泛化领域。基于该数据集的研究工作包括对ViT嵌入维度、网络深度等结构属性的深入分析,以及无训练NAS在OoD泛化中的应用探索。这些工作为ViT的鲁棒性设计提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



