five

TTA-VLM

收藏
arXiv2025-07-01 更新2025-07-02 收录
下载链接:
https://github.com/TomSheng21/tta-vlm
下载链接
链接失效反馈
官方服务:
资源简介:
TTA-VLM是一个用于评估测试时适应方法(TTA)对视觉语言模型(VLM)性能的综合基准。该基准在统一的框架内实现了8种情景式TTA和7种在线TTA方法,并在15个广泛使用的数据集上进行了评估。与之前只关注CLIP的研究不同,TTA-VLM将评估扩展到使用Sigmoid损失的SigLIP模型,并包括训练时间调整方法,如CoOp、MaPLe和TeCoA,以评估TTA方法的通用性。除了分类精度外,TTA-VLM还采用了多种评估指标,包括鲁棒性、校准、分布外检测和稳定性,从而对TTA方法进行更全面的评估。

TTA-VLM is a comprehensive benchmark for evaluating the performance of test-time adaptation (TTA) methods on vision-language models (VLMs). This benchmark implements 8 contextual TTA and 7 online TTA methods within a unified framework, and is evaluated on 15 widely-used datasets. Unlike prior research that only focuses on CLIP, TTA-VLM extends its evaluation to SigLIP models equipped with Sigmoid loss, and includes training-time adaptation methods such as CoOp, MaPLe, and TeCoA to assess the generalizability of TTA methods. In addition to classification accuracy, TTA-VLM adopts multiple evaluation metrics including robustness, calibration, out-of-distribution detection, and stability, enabling a more comprehensive assessment of TTA methods.
提供机构:
中国科学院自动化研究所模式识别国家重点实验室
创建时间:
2025-07-01
原始信息汇总

VLM-TTA: 视觉语言模型测试时适应的基准

数据集概述

  • 数据集名称:VLM-TTA Benchmark
  • 研究领域:视觉语言模型的测试时适应(Test-Time Adaptation)

数据集内容

  • 基准测试包含两种测试时适应方法:
    1. 片段式测试时适应(Episodic Test-Time Adaptation)
      • 支持算法:clipzs, tpt, ctpt, rlcf, mta, zero, ttl, tps, rtpt
    2. 在线测试时适应(Online Test-Time Adaptation)
      • 支持算法:clipzs, tda, dmn_weak, dmn, onzeta, boostadapter, dpe, ecalp, dyanprompt

数据准备

  • 需按照CoOp的指引手动下载所需数据集
  • 需替换以下路径:
    • 数据集根目录:/path/to/dataset
    • 缓存文件夹根目录:your_cache_path

使用方法

  1. 片段式测试时适应 python python instance_tta.py --data /path/to/dataset --test_sets I -a ViT-B/16 -b 64 --gpu $gpu --ctx_init a_photo_of_a -p 50 --output_dir episodic_results/ckps/tpt --algorithm tpt

  2. 在线测试时适应 python python online_tta.py --data /path/to/dataset --test_sets I -a ViT-B/16 -b 1 --gpu $gpu --ctx_init a_photo_of_a -p 50 --output_dir online_results/ckps/tda --algorithm tda

搜集汇总
数据集介绍
main_image_url
构建方式
TTA-VLM数据集的构建采用了统一且可复现的框架,涵盖了8种情景式测试时适应方法和7种在线测试时适应方法。研究团队在15个广泛使用的视觉语言模型数据集上对这些方法进行了系统评估,包括10个细粒度分类数据集和5个ImageNet相关数据集。为确保评估的全面性,除了CLIP模型外,还引入了采用Sigmoid损失训练的SigLIP模型,并整合了CoOp、MaPLe和TeCoA等训练时调优方法。数据增强方面,采用AugMix算法生成测试样本的增强视图,同时固定文本模板以消除提示选择带来的变异性。
使用方法
使用TTA-VLM数据集时,研究者可通过标准化流程评估测试时适应方法的性能。对于情景式适应,每个测试样本需生成64个增强视图(1个弱增强和63个强增强);在线适应则需处理固定顺序的测试数据流。评估时需注意:不同方法允许采用不同的数据增强协议,但需明确说明;所有方法均使用统一的模型初始化和文本模板;建议采用原始论文推荐的超参数设置。数据集支持对模型可信度的多维度评估,包括计算预期校准误差、构建分布外检测ROC曲线,以及测试对抗样本下的稳健性表现。
背景与挑战
背景概述
TTA-VLM是由中国科学院自动化研究所和南京大学的研究团队于2025年提出的视觉语言模型测试时适应基准。该数据集旨在解决当前测试时适应研究中存在的基线结果重复、评估指标单一、实验设置不一致等问题,为CLIP、SigLIP等视觉语言模型提供统一的评估框架。数据集包含15个广泛使用的视觉分类数据集,实现了8种情景式TTA方法和7种在线TTA方法,并引入了训练时微调方法以评估通用性。
当前挑战
TTA-VLM面临的挑战主要包括:1) 领域问题方面,现有TTA方法在准确率提升上相对早期工作TPT仅有有限改进,且与训练时微调方法协同效果不佳;2) 构建过程中,需要克服不同预训练模型检查点、文本提示词和评估协议差异带来的不公平比较问题,同时需设计超越分类准确率的多样化评估指标,如鲁棒性、校准性和分布外检测等。此外,如何保持模型可信度同时提升性能也是重要挑战。
常用场景
经典使用场景
TTA-VLM数据集在视觉-语言模型(VLMs)的测试时适应(TTA)研究中具有重要应用。该数据集通过统一框架评估了8种情景式TTA和7种在线TTA方法,覆盖15个广泛使用的数据集,为研究者提供了标准化的评估平台。其经典使用场景包括在CLIP和SigLIP等模型上进行零样本分类、多模态检索及语义分割等任务,特别适用于需要动态适应未标注测试数据的场景。
解决学术问题
TTA-VLM解决了当前TTA研究中的三大核心问题:基准结果重复性、评估指标单一性及实验设置不一致性。通过引入统一评估框架,该数据集实现了跨方法公平比较,并扩展了评估维度至模型鲁棒性、校准能力和分布外检测等指标。其创新性在于揭示了现有TTA方法相对于早期工作(如TPT)的性能增益有限,且与训练时微调方法协同性不足,为领域提供了关键改进方向。
实际应用
在实际应用中,TTA-VLM可显著提升视觉-语言模型在开放环境下的适应能力。例如,在医疗影像分析中,模型可通过在线TTA动态适应不同设备的成像特征;在自动驾驶领域,情景式TTA能快速调整模型对罕见天气条件的识别能力。数据集支持的多样性评估指标(如对抗鲁棒性)尤其适用于安全关键领域,确保模型在性能提升时不牺牲可靠性。
数据集最近研究
最新研究方向
近年来,TTA-VLM数据集在视觉语言模型(VLMs)的测试时适应(TTA)领域引起了广泛关注。该数据集通过统一的基准框架,系统评估了8种情景式TTA和7种在线TTA方法,覆盖了15个广泛使用的数据集,并扩展了评估范围至SigLIP模型及多种训练时微调方法(如CoOp、MaPLe和TeCoA)。研究揭示了当前TTA方法的局限性,包括性能提升有限、与训练时微调方法的协作性不佳,以及在提升准确率的同时可能牺牲模型的可信度(如校准性、鲁棒性)。TTA-VLM的引入为领域提供了公平比较和全面评估的平台,推动了更可靠、通用TTA策略的发展。
相关研究论文
  • 1
    The Illusion of Progress? A Critical Look at Test-Time Adaptation for Vision-Language Models中国科学院自动化研究所模式识别国家重点实验室 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作