VL-ICL Bench

arXiv2024-03-20 更新2024-07-31 收录

下载链接：

https://github.com/ys-zong/VL-ICL

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于多模态上下文学习的综合基准，涵盖了广泛的涉及图像和文本作为输入和输出的任务，以及从感知到推理和长上下文长度的不同类型的挑战。

A comprehensive benchmark for multimodal in-context learning, covering a wide range of tasks that take images and text as both inputs and outputs, and encompassing diverse challenges spanning from perception to reasoning as well as those involving long context lengths.

创建时间：

2024-03-20

原始信息汇总

VL-ICL 数据集概述

数据准备

数据集托管平台: HuggingFace
数据集链接: VL-ICL 数据集
下载与解压命令: bash git lfs install git clone https://huggingface.co/datasets/ys-zong/VL-ICL cd VL-ICL bash unzip.sh cd ..

环境配置

创建环境: bash conda create -n {env_name} python==3.10 -y pip install -r requirements/{model.txt} conda activate {env_name}
替换文件: {model.txt} 替换为相应的文件名。

使用说明

图像到文本 (I2T)

推理命令: bash CUDA_VISIBLE_DEVICES=0 python I2T_inference.py --engine {model_name} --n_shot {shots} --dataset {dataset_name} --task_description detailed
示例: bash CUDA_VISIBLE_DEVICES=0 python I2T_inference.py --engine qwen-vl-chat --n_shot 0 1 2 4 5 --task_description detailed --dataset open_mi
评估命令: bash python I2T_evaluate.py --dataset {dataset_name} --engine {model_name} --n_shot {shots}

文本到图像 (T2I)

推理命令: bash CUDA_VISIBLE_DEVICES=0 python T2I_inference.py --engine {model_name} --n_shot {shots} --dataset {dataset_name} --task_description detailed
示例: bash CUDA_VISIBLE_DEVICES=0 python T2I_inference.py --engine emu1-gen --n_shot 0 1 2 4 5 --task_description detailed --dataset open_t2i_mi
评估命令: bash CUDA_VISIBLE_DEVICES=0 python T2I_evaluate.py --dataset open_t2i_mi --engine seed-llama

引用

@article{zong2024vlicl, title={VL-ICL Bench: The Devil in the Details of Benchmarking Multimodal In-Context Learning}, author={Zong, Yongshuo and Bohdal, Ondrej and Hospedales, Timothy}, journal={arXiv preprint arXiv:2403.13164}, year={2024} }

搜集汇总

数据集介绍

构建方式

在视觉语言模型快速发展的背景下，为系统评估其多模态上下文学习能力，VL-ICL Bench通过精心设计八个核心任务构建而成。这些任务涵盖图像到文本与文本到图像的双向生成，具体包括快速开放MiniImageNet、CLEVR计数归纳、操作符归纳、交错操作符归纳、TextOCR、匹配MiniImageNet、文本到图像MiniImageNet以及CoBSAT。数据集的构建严格遵循上下文学习的典型协议，每个任务均划分为训练集与测试集，通过从训练集中采样少样本支持集，并在测试集上进行查询评估，最终性能由多次此类上下文学习回合的平均表现决定。整个基准套件共计包含超过1.4万个训练样本和1500个测试样本，总数据量约为1.72GB，确保了评估的全面性与可访问性。

特点

VL-ICL Bench的核心特征在于其超越了传统视觉问答与图像描述任务的局限，旨在深度挖掘多模态上下文学习的潜力。该数据集系统性地测试了模型在快速概念绑定、细粒度感知、规则归纳、简单推理、图像交错处理以及长上下文利用等多维度的能力。其任务设计巧妙避免了模型仅依赖预训练知识或学习答案格式的弊端，迫使模型必须从提供的少样本示例中真正归纳并执行新任务。例如，快速绑定任务要求模型将合成名称与视觉概念关联，而操作符归纳任务则需模型从图像中解析数字并推断数学运算符。这种多样化的挑战设置，使得该基准能够清晰揭示当前先进模型在不同能力维度上的优势与短板。

使用方法

使用VL-ICL Bench进行评估时，研究者需遵循标准的少样本上下文学习范式。对于每个选定的任务，首先从该任务的训练分割中随机采样指定数量的示例，构成支持集。随后，将支持集中的图像-文本对（或文本-图像对）与待查询的测试样本，按照预设的提示模板进行组合，形成完整的输入上下文。该提示通常包含任务描述、支持集示例以及查询部分。将构建好的上下文输入待评估的视觉语言模型，模型以前向传播的方式生成预测结果。最终，通过计算模型在测试集上的平均准确率来量化其上下文学习性能。为获得稳定评估，建议使用多个随机种子重复此过程并报告平均结果。该基准的代码与数据均已开源，便于复现与扩展研究。

背景与挑战

背景概述

随着大规模语言模型展现出卓越的上下文学习能力，视觉大语言模型在多模态任务中取得了显著进展。然而，现有研究对多模态上下文学习的评估主要局限于视觉问答和图像描述等有限任务，未能充分挖掘其潜力与边界。为此，爱丁堡大学信息学院的Yongshuo Zong、Ondrej Bohdal与Timothy Hospedales于2024年共同提出了VL-ICL Bench基准数据集。该数据集旨在系统评估视觉大语言模型在多样化多模态上下文学习任务中的表现，涵盖从感知到推理、从图像到文本生成及文本到图像生成的全方位能力，为深入理解模型在少样本场景下的适应性与局限性提供了重要工具。

当前挑战

VL-ICL Bench致力于解决多模态上下文学习领域评估体系不完善的挑战，传统基准如视觉问答与图像描述任务难以有效激发模型的上下文学习能力，仅能反映其格式适应而非本质推理提升。在数据集构建过程中，研究者面临多重挑战：需设计既能测试模型快速概念绑定、细粒度感知、规则归纳等核心能力，又需避免依赖先验知识的任务；同时，需平衡图像与文本的交互复杂度，确保任务能有效评估模型对长上下文、多图像交织输入的处理能力。此外，生成高质量、多样化的评估样例，并建立可靠的自动化评估机制，亦是构建过程中的关键难点。

常用场景

经典使用场景

在视觉语言大模型（VLLMs）的研究领域，VL-ICL Bench 作为一个综合性基准测试套件，其经典使用场景在于系统评估多模态上下文学习（ICL）的广泛能力。该数据集超越了传统视觉问答（VQA）和图像描述任务的局限，精心设计了涵盖图像到文本与文本到图像生成的双向任务，旨在全面检验模型在细粒度感知、规则归纳、跨图像推理、快速概念绑定以及长上下文处理等多维度的性能。研究者通过从训练集中采样少样本支持集，并在测试集上进行评估，能够精确衡量VLLMs在无需权重更新的前提下，从少量示例中学习并泛化新任务的内在潜力。

实际应用

在实际应用层面，VL-ICL Bench 为开发更强大、更通用的多模态人工智能系统提供了明确的指引。其评估结果能够帮助实践者清晰了解当前VLLMs在免训练学习新任务方面的能力边界，例如在需要快速适应新视觉概念、根据少量示例执行复杂视觉推理或生成符合特定隐含规则的图像等场景中，哪些任务可行，哪些仍面临挑战。这对于推动面向开放世界交互的智能助手、自适应教育工具、以及能够根据用户提供的少数样例快速定制化输出的创意生成系统等应用的发展，具有重要的现实指导意义。

衍生相关工作

VL-ICL Bench 的建立，启发并催生了一系列关注提升多模态上下文学习能力的后续研究。其揭示的模型在长上下文、多图像交织推理等方面的短板，促使研究者探索更高效的视觉token化方法、改进的模型架构以更好地暴露底层LLM的ICL能力。同时，该基准测试中集成的任务，如从CobSAT借鉴的潜在变量归纳任务，本身就代表了相关领域的前沿工作。这些衍生研究共同推动着VLLMs从依赖大规模预训练知识的零样本模式，向能够通过少量示例灵活学习新技能的、更具适应性的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集