MVL-SIB

Name: MVL-SIB
Creator: 德国维尔茨堡大学人工智能与数据科学中心, 德国汉堡大学语言技术组
Published: 2025-02-18 21:40:05
License: 暂无描述

arXiv2025-02-18 更新2025-02-27 收录

下载链接：

https://huggingface.co/datasets/WueNLP/mvl-sib

下载链接

链接失效反馈

官方服务：

资源简介：

MVL-SIB数据集是由德国维尔茨堡大学人工智能与数据科学中心和德国汉堡大学语言技术组创建的，包含205种语言的图像-文本跨模态主题匹配任务。该数据集扩展了SIB-200的粗粒度主题标注，通过手动收集的代表每个主题的10个图像和4个同类别句子，创建了3个不同的MVL-SIB实例。这些任务旨在评估大型视觉语言模型在跨模态和仅文本主题匹配方面的表现，数据集支持对语言理解和多模态推理的消融研究，以及单图像和多图像视觉语言交互的细致分析。

The MVL-SIB dataset was developed by the Center for Artificial Intelligence and Data Science at the University of Würzburg, Germany, and the Language Technology Group at the University of Hamburg, Germany. It covers image-text cross-modal topic matching tasks across 205 languages. Building upon the coarse-grained topic annotations of SIB-200, the dataset constructs three distinct MVL-SIB instances by manually collecting 10 images and 4 category-consistent sentences representing each topic. These tasks are designed to evaluate the performance of large vision-language models in both cross-modal and text-only topic matching scenarios. Additionally, the dataset enables ablation studies on language understanding and multimodal reasoning, as well as fine-grained analyses of single-image and multi-image vision-language interactions.

提供机构：

德国维尔茨堡大学人工智能与数据科学中心, 德国汉堡大学语言技术组

创建时间：

2025-02-18

搜集汇总

数据集介绍

构建方式

MVL-SIB数据集通过将SIB-200数据集中的主题标签与手工挑选的图像关联起来构建，实现了跨模态和纯文本主题匹配的评价。它涵盖了205种语言，超过现有多语言视觉-语言基准100种语言以上。MVL-SIB数据集包括两种任务：'图像到句子'(I2S)和'句子到图像'(S2I)，分别要求模型从四个候选句子中选择与一组参考图像主题最匹配的句子，或从四个候选图像中选择与一组参考句子主题最匹配的图像。此外，MVL-SIB还定义了相应的纯文本任务，通过将图像替换为主题标签来比较LVLMs的语言支持和文本支持。

特点

MVL-SIB数据集具有以下特点：1) 支持在205种语言上进行平行视觉-语言评价，比任何其他视觉-语言基准多出105种语言；2) 通过比较跨模态和纯文本主题匹配任务的表现，可以清晰地分离LVLMs的语言理解和多模态推理；3) 通过在跨模态任务中提供不同数量的图像来表示主题，可以分析LVLMs在单图像和多图像情况下的表现；4) 包含高级视觉-语言推理任务，将各种图像和文本配对以测试微妙的视觉-语言理解。

使用方法

使用MVL-SIB数据集进行视觉-语言模型评估时，首先需要选择适当的模型，如Qwen2VL、InternVL、Centurio-Qwen或GPT-4o-mini等。然后，根据评估任务（I2S、S2I、T2S或S2T）和参考数量（k=1、3或5），模型将面临从四个选项中选择最佳匹配项的挑战。评估指标是模型选择正确选项的比例。通过比较不同模型在不同语言和任务上的表现，可以分析模型的语言支持和视觉-语言理解能力。

背景与挑战

背景概述

MVL-SIB是一个多语言视觉语言基准数据集，由德国维尔茨堡大学人工智能与数据科学中心以及汉堡大学语言技术组的Fabian David Schmidt等人创建。该数据集旨在评估大型视觉语言模型（LVLMs）在205种语言上的跨模态和纯文本主题匹配能力，相较于现有多语言VL基准数据集，MVL-SIB涵盖了超过100种更多的语言。MVL-SIB的引入填补了现有VL基准数据集在低资源语言评估方面的空白，为LVLMs在多语言环境下的性能评估提供了一个全面的测试平台。

当前挑战

MVL-SIB数据集面临的挑战主要涉及两个方面。首先，LVLMs在低资源语言上的跨模态主题匹配表现不佳，甚至在某些语言上表现不如随机猜测。其次，LVLMs在低资源语言上的视觉语言支持相对于文本支持下降得不成比例。此外，MVL-SIB还揭示了LVLMs在处理多图像任务方面的不足，即它们并不能从多个图像中受益，这表明LVLMs在处理多图像任务方面尚未完全有效。

常用场景

经典使用场景

MVL-SIB数据集主要用于评估大规模视觉语言模型（LVLMs）在205种语言上的跨模态和仅文本的主题匹配能力。通过比较跨模态和仅文本的任务，该数据集允许研究人员分析LVLMs的语言理解和多模态推理能力。此外，MVL-SIB还允许研究人员研究LVLMs如何处理单图像和多图像的跨模态主题匹配任务，以及模型在不同语言上的性能差异。

衍生相关工作

MVL-SIB数据集衍生了多项相关研究。例如，研究人员可以利用该数据集来开发能够理解和生成多语言图像描述和视觉问答的LVLMs。此外，MVL-SIB还可以用于开发能够识别和分类多语言图像的LVLMs，以及在多语言环境中进行视觉推理的LVLMs。此外，该数据集还可以用于开发能够理解和生成多语言图像描述和视觉问答的LVLMs，以及在多语言环境中进行视觉推理的LVLMs。

数据集最近研究