MaRVL-QA

Name: MaRVL-QA
Creator: Waymo, Google
Published: 2025-08-24 09:24:56
License: 暂无描述

arXiv2025-08-24 更新2025-08-28 收录

下载链接：

https://huggingface.co/datasets/MaRVL-QA

下载链接

链接失效反馈

官方服务：

资源简介：

MaRVL-QA是一个用于评估多模态大型语言模型（MLLMs）在视觉景观中进行深度数学和空间推理能力的新基准。该数据集由两个新颖的任务组成：拓扑计数，识别和枚举特征，如局部最大值；以及变换识别，识别应用的几何变换。MaRVL-QA提供了一种新的方法来创建基准，基于一个多样化的数学函数库，并通过严格的模糊性过滤来生成QA对。该数据集旨在解决现有数学推理基准的局限性，并提供一种新的评估方法，即通过视觉数据直接理解数学概念的能力。

提供机构：

Waymo, Google

创建时间：

2025-08-24

搜集汇总

数据集介绍

构建方式

在数学可视化领域，MaRVL-QA数据集的构建采用多阶段流水线方法。首先从精心策划的32个函数家族中选取三维数学函数，确保几何与拓扑多样性。通过程序化渲染生成高分辨率图像，涵盖热力图、等高线图等多种可视化形式，并采用不同色彩映射以增强视觉鲁棒性。针对拓扑计数任务，结合数值优化算法与人工审核，精确标注局部极值点；对于变换识别任务，通过算法过滤旋转对称性及平移歧义案例，确保每对图像变换关系的唯一性。最终生成超过8万对高质量问答数据，并从中提取2748组样本构成平衡测试集。

特点

该数据集的核心特点在于其语义稀疏性和数学严谨性。通过数学函数图像剥离自然场景的语义干扰，纯粹考察模型的空间推理能力。拓扑计数任务要求精确识别连续曲面上的局部极值点，涉及对拓扑特征的系统性枚举；变换识别任务涵盖旋转与平移两类几何变换，需模型理解形状在坐标系中的内在变化规律。数据集还引入多重视觉风格组合，包括四种色彩映射与三种图表类型的混合呈现，有效检验模型对表面特征的跨风格泛化能力。所有问题均具有客观数学真值，避免了主观标注带来的偏差。

使用方法

该数据集主要用于评估多模态大模型在数学视觉推理方面的能力。研究者可通过Hugging Face平台获取MaRVL-QA-Mini测试集，其中包含2748个标注样本。评估时需按照官方提供的系统提示词框架，将图像与问题输入待测模型，要求模型直接输出数值答案或选项编号。对于拓扑计数任务，模型需返回极值点数量的整数值；变换识别任务则采用五选一的多选题形式。输出结果需严格遵循XML标签格式，以便自动化评估。该基准测试可有效揭示模型在抽象空间推理、数值计算和几何变换理解等方面的局限性。

背景与挑战

背景概述

多模态大语言模型在视觉语义理解领域取得显著突破的同时，其数学与空间推理能力仍存在明显局限。2025年8月，由Waymo与Google研究院联合发布的MaRVL-QA基准测试应运而生，旨在通过数学函数可视化图谱构建语义稀疏的评估环境，专注于检验模型对拓扑特征识别与几何变换理解的深层推理能力。该数据集通过精心设计的函数库生成超过8万个高质量问答对，填补了现有基准在视觉数学推理评估方面的空白，为多模态人工智能的发展提供了重要的评估工具。

当前挑战

该数据集核心挑战集中于数学视觉推理的双重维度：在领域问题层面，需解决模型对连续曲面拓扑特征（如极值点计数）的精确识别难题，以及几何变换（旋转、平移）的抽象空间映射问题；在构建技术层面，面临函数选择与渲染的严谨性挑战，包括通过混合数值分析与人工校验确保特征计数的无歧义性，采用扩展坐标域渲染策略消除轴标签干扰，并设计多阶段过滤算法排除旋转对称性与变换混淆案例，最终实现视觉风格与数学严谨性的统一。

常用场景

经典使用场景

在多模态大语言模型的评估体系中，MaRVL-QA通过数学函数可视化图谱构建了拓扑计数与几何变换识别的双重任务框架。该数据集典型应用于检验模型从二维图像中提取三维空间拓扑特征的能力，例如要求模型准确统计函数图像中局部极大值或极小值的数量，或识别两幅图谱之间的旋转变换关系。这种语义稀疏的数学场景有效剥离了自然图像中的语义干扰，专注于评估模型的核心空间推理机制。

衍生相关工作

该数据集催生了多个聚焦数学视觉推理的创新研究方向。部分研究延续其拓扑分析框架，开发了针对临界点分类、鞍点识别的扩展任务；另有工作受其几何变换识别的启发，构建了包含缩放、剪切等复杂变换的评测基准。在模型架构层面，MaRVL-QA的失败案例分析促进了具有显式空间建模机制的神经网络设计，例如集成数值优化模块的混合架构，以及针对连续表面推理的注意力机制改进方案。

数据集最近研究