VisuLogic

Name: VisuLogic
Creator: 中国科学技术大学, 西安交通大学, 上海人工智能实验室, 商汤科技, 清华大学
Published: 2025-04-22 01:59:53
License: 暂无描述

arXiv2025-04-22 更新2025-04-23 收录

下载链接：

https://visulogic-benchmark.github.io/VisuLogic

下载链接

链接失效反馈

官方服务：

资源简介：

VisuLogic是由上海人工智能实验室推出的视觉推理基准数据集，包含1000个人类验证的问题，覆盖六个类别，包括数量推理、空间推理、位置推理、属性推理、风格推理等。数据集从公开的在线资源中收集问题，经过图像验证、重复项移除、人工检查等质量控制流程，旨在评估多模态大型语言模型在没有混合纯文本推理的情况下的视觉推理能力。

VisuLogic is a visual reasoning benchmark dataset launched by Shanghai AI Laboratory. It contains 1,000 human-validated questions spanning six categories, including quantitative reasoning, spatial reasoning, positional reasoning, attribute reasoning, style reasoning, and others. The dataset collects questions from public online resources, and undergoes quality control processes such as image verification, duplicate removal, and manual inspection. Its goal is to evaluate the visual reasoning capabilities of multimodal large language models without mixing purely textual reasoning.

提供机构：

中国科学技术大学, 西安交通大学, 上海人工智能实验室, 商汤科技, 清华大学

创建时间：

2025-04-22

搜集汇总

数据集介绍

构建方式

VisuLogic数据集的构建采用了严谨的三阶段流程：数据收集、质量控制和数据分类。数据源自公开网络资源，通过自动化脚本抓取并解析问题-答案对，随后进行去噪和结构化处理。为确保数据可靠性，实施了图像验证、重复项剔除及人工审核三重质检机制。最终，由专家团队根据视觉推理能力需求将问题划分为六大类别，形成层次化分类体系。

特点

该数据集包含1,000道经过人工验证的视觉逻辑推理问题，涵盖定量推理、空间关系、属性比较等六种题型。其核心特色在于严格规避文本推理捷径，所有问题均需通过视觉分析解决。与现有基准相比，VisuLogic在保持选项均衡分布（各选项占比23.1%-26.7%）的同时，呈现出显著的视觉中心化特征，当前最先进的多模态大模型平均准确率仅为28.1%，与人类51.4%的表现存在明显差距。

使用方法

使用VisuLogic时建议采用三阶段评估框架：基础测试直接评估模型原始性能；思维链提示(CoT)探究分步推理能力；提示增强测试则通过问题线索引导模型关注关键视觉特征。配套发布的4,296条训练数据支持强化学习微调，实验表明该方法可使模型准确率提升5.6%。评估时需注意区分纯视觉推理与文本辅助推理场景，确保结果反映真实的视觉认知能力。

背景与挑战

背景概述

VisuLogic是由上海人工智能实验室等机构于2025年提出的多模态大语言模型视觉推理评测基准。该数据集包含1000道经过人工验证的视觉逻辑问题，涵盖定量推理、空间关系、属性比较等六大类别，旨在解决现有评估方法依赖文本描述、无法真实衡量视觉中心推理能力的核心问题。作为首个专注于纯粹视觉逻辑推理的基准，VisuLogic通过精心设计的任务范式，有效阻断了语言推理捷径，为推进多模态模型的视觉认知能力提供了标准化测试平台。

当前挑战

VisuLogic面临双重挑战：在领域问题上，需解决当前多模态模型对文本推理的过度依赖，真实评估其视觉元素分析、空间关系理解和逻辑演绎能力；在构建过程中，需克服视觉信息标注的高复杂性，确保问题设计既阻隔语言推理捷径，又保持人类可解的合理性。具体挑战包括：1) 视觉逻辑关系的多维度表征；2) 对抗性样本的平衡构建；3) 跨模态对齐的精确评估；4) 人类与机器认知差异的量化分析。

常用场景

经典使用场景

VisuLogic数据集作为评估多模态大语言模型（MLLMs）视觉推理能力的基准，广泛应用于学术研究中。通过包含六类视觉逻辑问题（如定量推理、空间关系、属性比较等），该数据集能够全面评估模型在复杂视觉场景下的推理能力。研究者利用VisuLogic对主流MLLMs进行系统性评估，揭示模型在视觉推理方面的不足，并为后续模型优化提供方向。

解决学术问题

VisuLogic解决了当前多模态评估中过度依赖文本描述的问题，通过纯视觉逻辑任务避免了语言推理的捷径效应。该数据集填补了视觉中心化推理评估的空白，帮助研究者识别模型在三维空间重构、几何变换、对称性识别等核心视觉认知能力的缺陷。实验表明，现有MLLMs在VisuLogic上的平均准确率仅为28.1%，远低于人类51.4%的表现，这为提升模型的视觉语义理解与逻辑推理提供了明确的研究靶点。

衍生相关工作

VisuLogic催生了多项重要研究：基于强化学习的视觉推理优化方法（如InternVL2.5-38B-RL将准确率提升至31.1%）、新型多模态思维链提示技术，以及视觉-语言联合表示学习框架。相关成果发表在CVPR等顶级会议，并推动了MMMU、MathVista等基准的评估范式革新，形成视觉推理研究的新范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集