five

ImageNet-RIB

收藏
arXiv2024-10-29 更新2024-10-31 收录
下载链接:
https://jd730.github.io/projects/ImageNet-RIB
下载链接
链接失效反馈
官方服务:
资源简介:
ImageNet-RIB(Robustness Inheritance Benchmark)是由麻省理工学院的研究团队创建的一个新的基准数据集,旨在评估经过微调的模型在多样化下游任务和评估OOD数据集上的鲁棒性。该数据集包含8个与ImageNet相关的OOD数据集,用于微调和评估模型的鲁棒性。数据集的创建过程涉及对预训练模型在不同下游数据集上的微调,并在剩余的OOD数据集上进行评估。ImageNet-RIB的应用领域主要集中在机器学习模型的鲁棒性评估和微调策略的开发,旨在解决模型在面对分布外样本时的性能下降问题。

ImageNet-RIB (Robustness Inheritance Benchmark) is a novel benchmark dataset developed by a research team at the Massachusetts Institute of Technology (MIT). It is designed to evaluate the robustness of fine-tuned models across diverse downstream tasks and out-of-distribution (OOD) datasets. This dataset includes 8 ImageNet-related OOD datasets, which are used for fine-tuning models and assessing their robustness. The construction of ImageNet-RIB involves fine-tuning pre-trained models on different downstream datasets, followed by evaluation on the remaining OOD datasets. The main application scenarios of ImageNet-RIB focus on robustness evaluation of machine learning models and development of fine-tuning strategies, aiming to address the performance degradation issue of models when encountering out-of-distribution samples.
提供机构:
麻省理工学院
创建时间:
2024-10-29
搜集汇总
数据集介绍
main_image_url
构建方式
ImageNet-RIB数据集的构建基于一套系统化的评估协议,旨在衡量预训练模型在下游任务微调后的鲁棒性。该数据集整合了多个与ImageNet相关的分布外(OOD)数据集,包括ImageNet-V2、ImageNet-A、ImageNet-R、ImageNet-Sketch、ObjectNet、ImageNet-Cartoon、ImageNet-Drawing和ImageNet-C。构建过程为:从这些数据集中选取一个作为下游任务数据集,对预训练模型进行微调,随后在其余数据集上评估微调后模型的性能。此流程在所有数据集上迭代进行,确保全面评估微调对鲁棒性的影响。
使用方法
使用ImageNet-RIB时,研究者需首先选择一组预训练模型(如ViT或ResNet架构,在ImageNet-1K、ImageNet-21K或LAION-2B上预训练),然后应用多种微调策略,包括标准微调、线性探测、LoRA、基于正则化的持续学习方法(如EWC和LwF)以及鲁棒微调方法(如WiSE-FT和Model Soup)。对于每个下游数据集,模型被微调10个epoch,并在其余OOD数据集上评估,计算鲁棒性改进分数(RI)和平均鲁棒性改进(mRI)。该基准特别适用于探索微调方法、预训练数据特性与下游任务鲁棒性之间的相互作用,为开发更鲁棒的微调策略提供实验平台。
背景与挑战
背景概述
在深度学习领域,利用大规模预训练模型在下游任务上进行微调已成为提升性能的常规范式。然而,这一过程往往伴随着灾难性遗忘,导致模型在面向分布外样本时的鲁棒性显著下降。为系统评估微调对模型鲁棒性的影响,麻省理工学院的研究团队于2024年提出了ImageNet-RIB基准。该基准由Jaedong Hwang、Brian Cheung等人创立,核心研究问题在于探究不同预训练数据集与微调策略如何影响模型在多个相关但分布各异的ImageNet派生任务上的鲁棒性继承能力。通过构建涵盖多种分布偏移的下游任务集合,ImageNet-RIB为理解预训练数据规模、多样性与微调后泛化性能之间的复杂关系提供了关键分析框架,对推动鲁棒微调策略的发展具有重要影响力。
当前挑战
ImageNet-RIB基准所应对的核心挑战在于,微调虽能提升模型在特定下游任务上的表现,却往往严重损害其对分布外样本的鲁棒性。具体挑战包括:1)领域问题层面,现有评估多局限于单一下游任务(如ImageNet-1K),难以全面反映微调对多样分布偏移的鲁棒性退化;2)构建过程中,需整合多个风格迥异的ImageNet分布偏移数据集(如ImageNet-R、ImageNet-A、ObjectNet等),并设计迭代式的微调与评估协议,以确保每个数据集均作为下游任务被充分测试;3)研究发现,预训练于更大、更丰富数据集(如LAION-2B)的模型在微调后反而表现出更严重的鲁棒性退化,这一反直觉现象揭示了数据规模与鲁棒性保持之间的深层矛盾,对现有微调范式提出了根本性挑战。
常用场景
经典使用场景
ImageNet-RIB(Robustness Inheritance Benchmark)是一个专为评估微调后模型鲁棒性而设计的基准数据集。其经典使用场景在于,将预训练模型在一组与ImageNet相关的分布外(OOD)数据集中的某一个上进行微调,随后在其余OOD数据集上评估其性能,并遍历所有数据集作为下游任务。这一循环评估协议能够全面衡量模型在适应特定下游任务后,对多种分布偏移的鲁棒性保持能力,为理解微调过程中的鲁棒性继承与遗忘提供了系统化的实验框架。
解决学术问题
该数据集解决了学术界长期关注的微调过程中模型鲁棒性退化问题,尤其是灾难性遗忘对分布外泛化能力的负面影响。通过构建多任务、多数据集的评估体系,ImageNet-RIB揭示了预训练数据集的规模与多样性并不必然保证微调后的鲁棒性,甚至可能加剧性能衰减。这一反直觉发现挑战了‘越大的预训练模型越好’的普遍假设,为研究鲁棒微调策略、理解数据集距离与性能退化的关系提供了关键实证依据,推动了鲁棒机器学习理论的深化。
实际应用
在实际应用中,ImageNet-RIB为需要高鲁棒性的视觉识别系统提供了重要的测试基准,例如自动驾驶、医学影像分析和安防监控等领域。这些场景要求模型在部署后能够应对光照变化、视角变换、风格迁移等自然分布偏移。通过该基准,开发者可以评估不同微调方法(如线性探测、LoRA、持续学习方法)对模型鲁棒性的实际影响,从而选择或设计更可靠的微调策略,确保模型在真实复杂环境中的稳定表现。
数据集最近研究
最新研究方向
在深度学习领域,大规模预训练模型的微调已成为应对下游任务的标准范式,然而其潜在的鲁棒性退化问题日益受到关注。ImageNet-RIB(Robustness Inheritance Benchmark)基准的提出,为系统性评估微调后模型在分布外样本上的鲁棒性提供了全新框架。该基准通过构建一组相互关联但存在分布差异的下游任务,循环执行微调与评估,揭示了即便在丰富且多样化的预训练数据上,模型微调后仍可能遭遇显著的鲁棒性崩塌。令人深思的是,研究发现预训练数据集的规模与多样性并非微调鲁棒性的保证,反而在部分场景下导致更强的性能衰减。这一反直觉的结论挑战了“更强基础模型必然带来更优专业任务表现”的传统认知,为开发更具弹性的微调策略和构建真正鲁棒的机器学习模型指明了关键方向。
相关研究论文
  • 1
    ImageNet-RIB Benchmark: Large Pre-Training Datasets Don't Guarantee Robustness after Fine-Tuning麻省理工学院 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作