MAIA (Multimodal AI Assessment)

Name: MAIA (Multimodal AI Assessment)
Creator: 罗马大学La Sapienza, Bruno Kessler基金会(FBK), CIMeC, DISI, 特伦托大学, 比萨大学计算机科学系, 比萨大学文献学与语言学系, 意大利语言计算研究所(CNR-ILC), ItaliaNLP Lab, 比萨
Published: 2025-02-24 17:25:51
License: 暂无描述

arXiv2025-02-24 更新2025-02-27 收录

下载链接：

http://arxiv.org/abs/2502.16989v1

下载链接

链接失效反馈

官方服务：

资源简介：

MAIA是一个为了细粒度地研究视觉语言模型在视频上的推理能力而设计的意大利语基准。它包含12种推理类别，旨在区分语言和视觉关系，评估视觉语言模型在视频相关问题的陈述验证任务和开放性问题回答任务上的性能。该数据集反映了意大利文化和语言，由母语人士制作。

MAIA is an Italian-language benchmark designed for fine-grained research on the reasoning capabilities of vision-language models (VLMs) on videos. It consists of 12 reasoning categories, which are aimed at distinguishing between linguistic and visual relationships, and evaluating the performance of VLMs on two video-related task types: statement verification and open-ended question answering. This dataset reflects Italian culture and language, and was curated by native Italian speakers.

提供机构：

罗马大学La Sapienza, Bruno Kessler基金会(FBK), CIMeC, DISI, 特伦托大学, 比萨大学计算机科学系, 比萨大学文献学与语言学系, 意大利语言计算研究所(CNR-ILC), ItaliaNLP Lab, 比萨

创建时间：

2025-02-24

搜集汇总

数据集介绍

构建方式

MAIA (Multimodal AI Assessment) 数据集的构建过程首先涉及从 YouTube Italy 网站收集 100 个短视频，每个视频大约 30 秒，内容涵盖意大利文化的各个方面，如城市、艺术、食物、体育和日常活动。然后，研究人员定义了 12 个推理类别，旨在捕捉语言和视觉之间的关系，并突出显示当其中一个模态足以完成任务时，以及何时两者都需要，何时整个短视频的丰富性对于完成任务至关重要。接下来，他们创建了与这些类别相对应的问题和答案，每个视频有 2 个问题，每个问题有 8 个答案。这些问题和答案由 12 名合格的注释者编写，并经过手动审查以确保它们符合指南和语义类别。然后，他们使用 Prolific 平台收集了来自意大利本土参与者的答案。最后，他们使用 GPT-4o 生成与问题和答案相对应的真实陈述和虚假陈述。这个过程产生了 19,200 个高质量的答案和 19,200 个真实陈述以及 19,200 个虚假陈述。

特点

MAIA 数据集的特点在于其独特的视频选择，这些视频反映了意大利文化和语言。数据集的构建方式考虑了视频和语言之间的关系，以及当单独使用一种模态或两种模态结合使用时，哪种模态对于完成任务更为重要。此外，数据集的设计考虑了推理类别，这些类别旨在揭示语言和视觉之间的关系，并突出显示何时需要一种模态或两种模态。MAIA 数据集的另一个特点是它包含大量的问题和答案，每个视频有 2 个问题，每个问题有 8 个答案，这为评估视觉语言模型的推理能力提供了丰富的数据。

使用方法

MAIA 数据集的使用方法包括两个主要任务：视觉陈述验证和开放式视觉问答。视觉陈述验证是一个多选题，模型需要在每个 MAIA 问题相关的一个真实陈述和一个虚假陈述之间选择正确的陈述。开放式视觉问答是一个生成任务，模型需要根据视频内容生成正确的开放式答案。MAIA 数据集还引入了一个新的指标，即聚合准确度（Agg-Acc），该指标同时评估模型在视觉理解方面的能力和生成方面的能力。为了使用 MAIA 数据集，研究人员需要选择一个视觉语言模型，并使用该模型执行视觉陈述验证和开放式视觉问答任务。然后，他们可以使用聚合准确度指标来评估模型在视觉理解和生成方面的表现。

背景与挑战

背景概述

MAIA（Multimodal AI Assessment）数据集是一项针对视频内容上视觉语言模型推理能力的精细研究而设计的意大利语基准。该数据集由Fondazione Bruno Kessler（FBK）等机构的研究人员于2025年创建，旨在评估视觉语言模型（VLMs）在两个相关任务上的能力：视觉陈述验证和开放式视觉问答。MAIA的独特之处在于其设计、推理类别、所使用的指标以及视频的语言和文化。它考虑了十二种推理类别，旨在通过强调何时一个模式足以解决任务，何时两者都需要，以及何时视频的完整丰富性比其部分更为重要，来区分语言和视觉关系。得益于其精心设计，MAIA通过一个综合指标同时评估VLMs的一致性和视觉支持的天然语言理解和生成。最后，视频集合已被精心挑选，以反映意大利文化，语言数据由母语人士产生。

当前挑战

MAIA数据集面临的挑战包括：1) 视觉语言模型在视频问答任务中的推理能力评估，特别是如何捕捉语言和视觉之间的复杂关系；2) 构建过程中所遇到的挑战，包括视频收集、推理类别的定义、问题和答案的收集、以及真实和虚假陈述的生成。此外，MAIA还面临着将理解和生成任务结合在一个综合评价框架中的挑战，以提供一个更全面和自然的评估环境。

常用场景

经典使用场景

MAIA数据集被设计用于细粒度地研究视觉语言模型在视频上的推理能力。其经典使用场景包括视觉陈述验证任务和开放式视觉问答任务，这两个任务都针对同一组与视频相关的问题。MAIA数据集通过12个推理类别来评估视觉语言模型(VLMs)的能力，这些类别旨在通过强调何时单个模态足够解决任务、何时两者都需要以及何时需要短视频的完整丰富性，而不是仅仅其中一部分，来分解语言和视觉关系。

解决学术问题

MAIA数据集解决了视觉语言模型在处理视频数据时推理能力不足的问题。通过其精心设计，MAIA评估VLMs的连贯性和视觉支持的NLU和NLG能力，同时使用聚合指标。此外，MAIA视频集经过精心选择，以反映意大利文化，并由母语人士产生语言数据，这为研究和开发针对低资源语言的视频任务提供了宝贵的资源。

衍生相关工作

MAIA数据集的推出衍生了许多相关的研究工作。例如，研究人员利用MAIA来评估不同VLMs在不同推理类别上的性能，并分析其优势和弱点。此外，MAIA的设计和评估方法已经启发了其他视频问答基准的开发，这些基准旨在更全面地评估VLMs的多模态理解能力。MAIA的推理类别也为开发针对特定任务和场景的定制化VLMs提供了灵感。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集