MATE

Name: MATE
Creator: HiTZ zentroa
Published: 2025-05-29 23:11:16
License: 暂无描述

Hugging Face2025-05-29 更新2025-05-30 收录

下载链接：

https://huggingface.co/datasets/HiTZ/MATE

下载链接

链接失效反馈

官方服务：

资源简介：

MATE数据集是一个包含5500个问题回答示例的评估基准，用于测试视觉语言模型在跨模态实体链接方面的能力。每个示例包括一个由3到10个具有不同颜色、形状、材料和大小三维几何对象组成的场景，这些场景在视觉和文本两种模态中表示。数据集分为跨模态和单模态两种配置，用于评估模型在不同模态间链接实体的能力。

提供机构：

HiTZ zentroa

创建时间：

2025-05-25

原始信息汇总

数据集概述：HiTZ/MATE

基本描述

用途：评估视觉语言模型（VLMs）的跨模态实体链接能力
数据量：11,000个问答示例（5,500个跨模态 + 5,500个单模态）
语言：英语
数据类型：合成数据
许可协议：Apache License 2.0
维护机构：HiTZ Center - Ixa, 巴斯克大学UPV/EHU

数据集结构

配置

cross_modal（主配置）
- 必须链接视觉和文本场景表示才能正确回答问题
- 大小：1,102,554,749字节
- 样本数：5,500
unimodal（辅助配置）
- 仅需单一模态（视觉或文本）即可回答问题
- 大小：556,691,316字节
- 样本数：5,500

数据特征

特征名称	类型	描述
id	string	128位十六进制实例ID
image	image	场景的视觉表示（PNG）
scene	string	场景的文本表示（JSON）
question	string	关于场景的问题
answer	string	问题答案
task	string	指针和目标属性的模态组合
object_count	int64	场景中的物体数量（3-10）
pointer_attribute	string	用于识别查询对象的属性
target_attribute	string	问题中询问的属性

任务类型

cross_modal配置：
- img2data：指针在图像中，目标在文本中
- data2img：指针在文本中，目标在图像中
unimodal配置：
- img2img：指针和目标都在图像中
- data2data：指针和目标都在文本中

属性类型

视觉模态：颜色、形状
文本模态：名称、旋转、大小、3D坐标
描述性属性：材质（不用于指针/目标）

引用格式

bibtex @article{alonso2025vision, title={Vision-Language Models Struggle to Align Entities across Modalities}, author={Alonso, I{~n}igo and Salaberria, Ander and Azkune, Gorka and Barnes, Jeremy and de Lacalle, Oier Lopez}, journal={arXiv preprint arXiv:2503.03854}, year={2025} }

注意事项

非训练用途：本数据集仅用于评估目的
合成场景：基于CLEVR数据集扩展，包含3-10个3D几何物体

搜集汇总

数据集介绍

构建方式

MATE数据集通过精心设计的合成场景构建，旨在评估视觉语言模型在跨模态实体链接方面的能力。该数据集基于CLEVR数据集扩展而来，每个场景包含3至10个具有不同颜色、形状、材料和尺寸的3D几何对象，并以视觉（图像）和文本（JSON格式）两种模态呈现。数据集的构建过程严格控制了指针属性和目标属性的模态分布，确保在跨模态配置中二者分属不同模态，而在单模态配置中二者属于同一模态。

使用方法

使用MATE数据集时，研究人员可通过两种配置进行评估：cross_modal配置要求模型必须链接不同模态的信息才能正确回答问题，而unimodal配置则只需单一模态信息即可作答。数据集提供了完整的场景描述、问题、答案以及任务类型标注，便于直接用于模型测试。需要注意的是，该数据集专为评估设计，不建议用于模型训练。使用时可通过HuggingFace平台加载，或参考项目GitHub仓库获取更多技术细节。

背景与挑战

背景概述

MATE数据集由HiTZ中心与巴斯克大学UPV/EHU的研究团队于2025年推出，旨在评估视觉语言模型（VLMs）在跨模态实体链接任务中的性能。该数据集基于CLEVR数据集扩展而来，通过合成生成的3D几何场景，结合视觉（图像）与文本（JSON格式描述）双模态表示，构建了5500个问答样本。研究团队通过西班牙政府AWARE项目、欧盟Horizon计划等多方资金支持，重点解决了模态间实体对齐这一核心问题，为多模态推理领域提供了标准化评估基准。数据集通过指针属性和目标属性的模态分离设计，系统化地衡量模型在图像-文本跨模态关联中的能力，填补了传统单模态评估在复杂语义对齐上的不足。

当前挑战

MATE数据集面临的挑战主要体现在两方面：在领域问题层面，跨模态实体链接要求模型克服视觉特征与文本符号间的语义鸿沟，尤其在处理形状、颜色等视觉属性与名称、坐标等文本属性的关联时，现有模型常出现模态偏差问题；在构建层面，合成数据的真实性局限与问答对的逻辑复杂性构成矛盾，需精确控制场景生成算法以确保几何属性与文本描述的一致性，同时维持问题设计的多样性与平衡性。指针-目标属性对在双模态中的非对称分布进一步增加了数据标注与验证的复杂度，这对基准的可靠性与泛化性提出了更高要求。

常用场景

经典使用场景

在跨模态实体链接研究中，MATE数据集为评估视觉语言模型（VLMs）的多模态对齐能力提供了标准化的测试平台。通过精心设计的视觉场景与文本描述配对，研究者能够系统性地考察模型在不同模态间建立实体关联的效能，特别是在指针属性与目标属性分属图像和文本的复杂情境下。该数据集通过5500个问答实例，为模型在跨模态推理任务中的表现提供了量化基准。

解决学术问题

MATE数据集有效解决了视觉语言模型领域的关键挑战——跨模态实体对齐的精确评估问题。传统方法往往难以区分模型在单模态和跨模态场景下的性能差异，而该数据集通过分离交叉模态与单模态配置，首次实现了对实体链接能力的独立测量。其合成的几何场景消除了真实数据集的干扰因素，为研究模态间信息融合机制提供了纯净的实验环境。

实际应用

该数据集的实际价值体现在智能问答系统和多模态交互界面的开发中。当虚拟助手需要同时解析用户语言指令和视觉场景时，MATE提供的评估框架能有效验证系统在跨模态参照解析方面的可靠性。例如在增强现实导航中，系统必须准确关联语音指令中的地标描述与摄像头捕捉的视觉特征，这正是数据集所模拟的核心能力。

数据集最近研究