TTA-VLM

Name: TTA-VLM
Creator: 中国科学院自动化研究所模式识别国家重点实验室
Published: 2025-07-01 00:05:55
License: 暂无描述

arXiv2025-07-01 更新2025-07-02 收录

下载链接：

https://github.com/TomSheng21/tta-vlm

下载链接

链接失效反馈

官方服务：

资源简介：

TTA-VLM是一个用于评估测试时适应方法（TTA）对视觉语言模型（VLM）性能的综合基准。该基准在统一的框架内实现了8种情景式TTA和7种在线TTA方法，并在15个广泛使用的数据集上进行了评估。与之前只关注CLIP的研究不同，TTA-VLM将评估扩展到使用Sigmoid损失的SigLIP模型，并包括训练时间调整方法，如CoOp、MaPLe和TeCoA，以评估TTA方法的通用性。除了分类精度外，TTA-VLM还采用了多种评估指标，包括鲁棒性、校准、分布外检测和稳定性，从而对TTA方法进行更全面的评估。

TTA-VLM is a comprehensive benchmark for evaluating the performance of test-time adaptation (TTA) methods on vision-language models (VLMs). This benchmark implements 8 contextual TTA and 7 online TTA methods within a unified framework, and is evaluated on 15 widely-used datasets. Unlike prior research that only focuses on CLIP, TTA-VLM extends its evaluation to SigLIP models equipped with Sigmoid loss, and includes training-time adaptation methods such as CoOp, MaPLe, and TeCoA to assess the generalizability of TTA methods. In addition to classification accuracy, TTA-VLM adopts multiple evaluation metrics including robustness, calibration, out-of-distribution detection, and stability, enabling a more comprehensive assessment of TTA methods.

提供机构：

中国科学院自动化研究所模式识别国家重点实验室

创建时间：

2025-07-01

原始信息汇总

VLM-TTA: 视觉语言模型测试时适应的基准

数据集概述

数据集名称：VLM-TTA Benchmark
研究领域：视觉语言模型的测试时适应（Test-Time Adaptation）

数据集内容

基准测试包含两种测试时适应方法：
1. 片段式测试时适应（Episodic Test-Time Adaptation）
  - 支持算法：clipzs, tpt, ctpt, rlcf, mta, zero, ttl, tps, rtpt
2. 在线测试时适应（Online Test-Time Adaptation）
  - 支持算法：clipzs, tda, dmn_weak, dmn, onzeta, boostadapter, dpe, ecalp, dyanprompt

数据准备

需按照CoOp的指引手动下载所需数据集
需替换以下路径：
- 数据集根目录：/path/to/dataset
- 缓存文件夹根目录：your_cache_path

使用方法

片段式测试时适应 python python instance_tta.py --data /path/to/dataset --test_sets I -a ViT-B/16 -b 64 --gpu $gpu --ctx_init a_photo_of_a -p 50 --output_dir episodic_results/ckps/tpt --algorithm tpt
在线测试时适应 python python online_tta.py --data /path/to/dataset --test_sets I -a ViT-B/16 -b 1 --gpu $gpu --ctx_init a_photo_of_a -p 50 --output_dir online_results/ckps/tda --algorithm tda

搜集汇总

数据集介绍

构建方式

TTA-VLM数据集的构建采用了统一且可复现的框架，涵盖了8种情景式测试时适应方法和7种在线测试时适应方法。研究团队在15个广泛使用的视觉语言模型数据集上对这些方法进行了系统评估，包括10个细粒度分类数据集和5个ImageNet相关数据集。为确保评估的全面性，除了CLIP模型外，还引入了采用Sigmoid损失训练的SigLIP模型，并整合了CoOp、MaPLe和TeCoA等训练时调优方法。数据增强方面，采用AugMix算法生成测试样本的增强视图，同时固定文本模板以消除提示选择带来的变异性。

使用方法

使用TTA-VLM数据集时，研究者可通过标准化流程评估测试时适应方法的性能。对于情景式适应，每个测试样本需生成64个增强视图（1个弱增强和63个强增强）；在线适应则需处理固定顺序的测试数据流。评估时需注意：不同方法允许采用不同的数据增强协议，但需明确说明；所有方法均使用统一的模型初始化和文本模板；建议采用原始论文推荐的超参数设置。数据集支持对模型可信度的多维度评估，包括计算预期校准误差、构建分布外检测ROC曲线，以及测试对抗样本下的稳健性表现。

背景与挑战

背景概述

TTA-VLM是由中国科学院自动化研究所和南京大学的研究团队于2025年提出的视觉语言模型测试时适应基准。该数据集旨在解决当前测试时适应研究中存在的基线结果重复、评估指标单一、实验设置不一致等问题，为CLIP、SigLIP等视觉语言模型提供统一的评估框架。数据集包含15个广泛使用的视觉分类数据集，实现了8种情景式TTA方法和7种在线TTA方法，并引入了训练时微调方法以评估通用性。

当前挑战

TTA-VLM面临的挑战主要包括：1) 领域问题方面，现有TTA方法在准确率提升上相对早期工作TPT仅有有限改进，且与训练时微调方法协同效果不佳；2) 构建过程中，需要克服不同预训练模型检查点、文本提示词和评估协议差异带来的不公平比较问题，同时需设计超越分类准确率的多样化评估指标，如鲁棒性、校准性和分布外检测等。此外，如何保持模型可信度同时提升性能也是重要挑战。

常用场景

经典使用场景

TTA-VLM数据集在视觉-语言模型（VLMs）的测试时适应（TTA）研究中具有重要应用。该数据集通过统一框架评估了8种情景式TTA和7种在线TTA方法，覆盖15个广泛使用的数据集，为研究者提供了标准化的评估平台。其经典使用场景包括在CLIP和SigLIP等模型上进行零样本分类、多模态检索及语义分割等任务，特别适用于需要动态适应未标注测试数据的场景。

解决学术问题

TTA-VLM解决了当前TTA研究中的三大核心问题：基准结果重复性、评估指标单一性及实验设置不一致性。通过引入统一评估框架，该数据集实现了跨方法公平比较，并扩展了评估维度至模型鲁棒性、校准能力和分布外检测等指标。其创新性在于揭示了现有TTA方法相对于早期工作（如TPT）的性能增益有限，且与训练时微调方法协同性不足，为领域提供了关键改进方向。

实际应用

在实际应用中，TTA-VLM可显著提升视觉-语言模型在开放环境下的适应能力。例如，在医疗影像分析中，模型可通过在线TTA动态适应不同设备的成像特征；在自动驾驶领域，情景式TTA能快速调整模型对罕见天气条件的识别能力。数据集支持的多样性评估指标（如对抗鲁棒性）尤其适用于安全关键领域，确保模型在性能提升时不牺牲可靠性。

数据集最近研究