LR0.FM

Name: LR0.FM
Creator: University of Central Florida, IIIT Guwahati
Published: 2025-02-07 16:40:08
License: 暂无描述

arXiv2025-02-07 更新2025-02-11 收录

下载链接：

https://ucf-crcv.github.io/lr0.fm

下载链接

链接失效反馈

官方服务：

资源简介：

LR0.FM是一个综合性的视觉语言基础模型基准测试，评估了10个基础模型在66个不同架构和15个不同数据集上的零样本分类性能，特别是在低分辨率条件下的表现。数据集涵盖了从大规模数据集如ImageNet到细粒度纹理特定的数据集如Oxford Pets，旨在探究模型大小、预训练数据集质量、微调对低分辨率场景下模型鲁棒性的影响。

LR0.FM is a comprehensive vision-language foundation model benchmark that evaluates the zero-shot classification performance of 10 foundation models across 66 distinct architectures and 15 diverse datasets, particularly under low-resolution conditions. The benchmark covers datasets ranging from large-scale ones such as ImageNet to fine-grained texture-specific datasets like Oxford Pets, aiming to investigate the impacts of model size, pretraining dataset quality, and fine-tuning on model robustness in low-resolution scenarios.

提供机构：

University of Central Florida, IIIT Guwahati

创建时间：

2025-02-06

搜集汇总

数据集介绍

构建方式

LR0.FM 数据集的构建方式涵盖了广泛的视觉语言基础模型，包括 66 种骨干网络和 15 种图像分类数据集。这些数据集从大规模的数据集，如 ImageNet，到细粒度和纹理特定的数据集，如牛津宠物和 DTD。为了模拟低分辨率输入，高分辨率图像被下采样到不同的分辨率，包括 16×16、32×32、64×64 和 128×128。模型在原始分辨率下进行评估，并通过下采样图像来评估低分辨率性能。为了衡量模型的鲁棒性，提出了一种新的指标，加权聚合鲁棒性（WAR），以更公平地考虑跨数据集的性能下降。

特点

LR0.FM 数据集的特点在于其广泛的覆盖面，包括各种骨干网络和数据集，以及新的鲁棒性指标 WAR。数据集还提供了关于模型在低分辨率条件下性能下降的深入分析，揭示了模型大小、预训练数据集质量和微调对鲁棒性的影响。此外，数据集还包含了一种简单而有效的策略 LR-TK0，用于增强模型对低分辨率输入的鲁棒性，而无需改变预训练的权重。

使用方法

LR0.FM 数据集的使用方法包括评估视觉语言基础模型在低分辨率图像上的零样本分类性能。数据集可以用于比较不同模型的鲁棒性，并研究模型大小、预训练数据集质量和微调对低分辨率性能的影响。此外，LR-TK0 策略可以用于增强模型对低分辨率输入的鲁棒性，而无需改变预训练的权重。

背景与挑战

背景概述

在视觉语言基础模型（FMs）的研究领域，LR0.FM 数据集的引入为评估模型在低分辨率图像上的零样本分类性能提供了一个全面的基准。该数据集由Priyank Pathak、Shyam Marjit、Shruti Vyas和Yogesh S Rawat于2025年发布于ICLR会议论文，旨在解决视觉语言模型在实际应用中遇到的低分辨率图像分类挑战。LR0.FM 数据集涵盖了66种不同的模型骨干网络和15个图像分类数据集，旨在提供一个系统性的研究，以揭示模型大小、预训练数据集质量和微调对低分辨率场景中鲁棒性的影响。该研究对于理解视觉语言模型的实际应用具有重要意义，并为进一步提高模型在低分辨率图像上的性能提供了有价值的见解。

当前挑战

LR0.FM 数据集相关的挑战主要涉及视觉语言模型在低分辨率图像上的鲁棒性问题。具体挑战包括：1) 低分辨率图像中的细节丢失对模型性能的影响；2) 现有鲁棒性评估指标的局限性，如误导性高鲁棒性评分和对某些数据集的忽视。为了解决这些挑战，研究者们提出了加权聚合鲁棒性（WAR）这一新型鲁棒性指标，以更公平地评估模型在低分辨率条件下的性能。此外，研究者们还提出了LR-TK0策略，通过在冻结的预训练模型上添加可训练的低分辨率令牌来增强模型对低分辨率输入的鲁棒性，从而提供了一种实用的解决方案，以应对视觉语言模型在实际应用中遇到的低分辨率图像分类挑战。

常用场景

经典使用场景

LR0.FM数据集主要用于评估视觉-语言基础模型在低分辨率图像上的零样本分类性能。通过对10种基础模型在66个骨干网络和15个数据集上的表现进行综合评估，LR0.FM揭示了模型大小、预训练数据集质量和微调等因素对模型在低分辨率条件下的鲁棒性的影响。此外，LR0.FM还提出了一种新的度量标准——加权聚合鲁棒性（WAR），以更公平地评估模型在低分辨率和不同数据集上的性能。

实际应用

LR0.FM数据集在实际应用中具有重要的意义。通过对低分辨率图像进行零样本分类，LR0.FM可以应用于各种场景，如监控视频、卫星图像和隐私保护图像等。此外，LR0.FM提出了一种新的度量标准——加权聚合鲁棒性（WAR），为评估模型在低分辨率和不同数据集上的性能提供了更准确的方法。LR0.FM的研究结果表明，模型在低分辨率图像上的鲁棒性可以通过增加模型大小、提高预训练数据集质量和避免微调等方法来提高。这些发现为提高视觉-语言基础模型在低分辨率图像上的性能提供了重要的理论指导。

衍生相关工作

LR0.FM数据集衍生了一系列相关工作，主要集中在提高视觉-语言基础模型在低分辨率图像上的鲁棒性。其中，LR-TK0是一种简单而有效的方法，通过引入低分辨率特定的token来增强模型的鲁棒性，同时不改变预训练模型的权重。LR-TK0方法在多个数据集上取得了显著的性能提升，并且具有良好的泛化能力。此外，LR0.FM还提出了一种新的度量标准——加权聚合鲁棒性（WAR），为评估模型在低分辨率和不同数据集上的性能提供了更准确的方法。这些相关工作为进一步研究视觉-语言基础模型在低分辨率图像上的鲁棒性提供了重要的参考和启示。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集