shape-blind-dataset

github2025-03-04 更新2025-03-17 收录

下载链接：

https://github.com/rsinghlab/Shape-Blind

下载链接

链接失效反馈

官方服务：

资源简介：

尽管多模态大语言模型（MLLMs）在视觉语言任务上表现强劲，但在数学问题解决上却表现不佳。为了系统地研究MLLMs的视觉数学推理能力，我们评估了它们对几何原语的理解，测试了多步推理，并探索了提高视觉推理能力的初步解决方案。我们的研究揭示了形状识别的基本缺陷，顶级模型在识别规则多边形时的准确率低于50%。我们通过双过程理论分析了这些失败，并展示了MLLMs依赖于系统1（直觉、记忆关联）而非系统2（深思熟虑的推理）。因此，MLLMs无法计算熟悉和新形状的边数，表明它们既没有学习到“边”的概念，也没有有效地处理视觉输入。最后，我们提出了视觉提示链式思维（VC-CoT）提示，通过明确引用图表中的视觉注释来增强多步数学推理，将GPT-4o在不规则多边形边数计数任务中的准确率从7%提高到93%。我们的研究结果表明，MLLMs中的系统2推理仍然是一个未解决的问题，视觉引导提示对于成功参与视觉推理至关重要。

Although multimodal large language models (MLLMs) demonstrate robust performance in visual language tasks, they exhibit poor performance in mathematical problem-solving. To systematically investigate the visual mathematical reasoning capabilities of MLLMs, we assessed their understanding of geometric primitives, tested multi-step reasoning, and explored preliminary solutions to enhance visual reasoning capabilities. Our research revealed fundamental deficiencies in shape recognition, with top models achieving accuracy below 50% in identifying rule-based polygons. We analyzed these failures through the dual-process theory and demonstrated that MLLMs rely on System 1 (intuition, memory associations) rather than System 2 (deliberate reasoning). Consequently, MLLMs are unable to compute the number of sides of familiar and new shapes, indicating that they have neither learned the concept of 'sides' nor effectively processed visual inputs. Finally, we proposed the Visual Cues Chain-of-Thought (VC-CoT) prompts, which enhance multi-step mathematical reasoning by explicitly referencing visual annotations within charts, increasing the accuracy of GPT-4o in the irregular polygon side counting task from 7% to 93%. Our findings suggest that System 2 reasoning within MLLMs remains an unresolved issue, and visual guidance prompts are crucial for successful engagement in visual reasoning.

创建时间：

2025-02-14

原始信息汇总

数据集概述

数据集名称

Forgotten Polygons

数据集描述

该数据集用于评估多模态大型语言模型（MLLMs）在视觉数学推理方面的表现，特别是对几何基本图形的理解、多步骤推理能力，并提出了一种通过视觉引导提示来提高视觉推理能力的方法。

数据集构成

包含用于评估的13个不同模型的代码。
提供了正多边形、抽象形状等类型的图像数据。
包括用于评估不同形状识别和推理任务的CSV数据文件。

使用要求

Python 3.9.16
PyTorch Version: 2.2.1
transformers: 4.48.3

数据集任务

shape_id：识别图像中的形状。
sides_id：确定图像中形状的边数。
two_shapes：识别两个形状并计算它们的总边数。
abstract：确定抽象形状的边数。
heptagons_with_visual_cues & arrow_on_plus_with_visual_cues：评估视觉引导链式思维（VC-CoT）提示的效果。
mathverse_CoT：评估MathVerse数据集的视觉主导分割效果。

相关文件

evaluation/MLLMs_accuracy_calculations.ipynb：计算和整理各任务指标。
visualization：包含生成研究关键可视化的代码。

搜集汇总

数据集介绍

构建方式

本数据集通过设计一系列几何图形识别任务，旨在评估多模态大型语言模型在视觉数学推理方面的能力。数据集包含了规则多边形、抽象形状等多种类型，并通过图像生成代码、数学问题解决任务以及视觉线索提示方法构建而成，为研究者提供了深入探索模型在几何识别、多步骤推理等方面表现的机会。

使用方法

使用本数据集时，研究者需先安装必要的Python环境和依赖库。数据集提供了预生成的图像和相应的CSV文件，用于执行不同的评估任务。通过运行提供的脚本，研究者可以轻松地对模型进行几何形状识别、边数识别等多种任务的评估，并利用Jupyter笔记本进行详细的性能分析。

背景与挑战

背景概述

shape-blind-dataset数据集的构建源于对多模态大型语言模型在视觉数学问题解决能力上的探究。该数据集由研究团队于近期创建，旨在评估多模态大型语言模型在几何图形识别和数学推理方面的表现。研究团队通过对模型在几何基本元素理解、多步骤推理等方面的测试，揭示了模型在形状识别上的根本性缺陷。该数据集的建立，为相关领域提供了一个重要的研究工具，对于推动视觉数学推理领域的研究具有重要意义。

当前挑战

该数据集在研究领域中面临的挑战主要包括：1) 多模态大型语言模型在解决视觉数学问题，如识别规则多边形等方面存在明显不足，准确率低于50%；2) 模型在处理视觉输入时，依赖直觉和记忆中的关联，而非深思熟虑的推理过程，导致在识别图形边数等任务上失败；3) 数据集构建过程中，需要解决如何有效提升模型视觉推理能力的问题。研究团队提出了视觉引导的提示方法，显著提升了模型在不规则多边形边数计数任务上的准确率，但如何在多模态大型语言模型中实现更高效的视觉推理仍是一个开放性问题。

常用场景

经典使用场景

在机器学习领域，尤其是多模态大型语言模型的研究中，该shape-blind-dataset数据集被广泛应用于评估模型对视觉数学问题的解决能力。该数据集通过设置多种形状识别和边数识别任务，成为检验模型视觉推理能力的标准工具。

解决学术问题

该数据集解决了学术研究中如何系统评估多模态大型语言模型在视觉数学推理方面的不足的问题。通过该数据集，研究者能够发现模型在识别几何形状和进行多步骤推理方面的缺陷，对于理解和改进模型的视觉推理能力具有重要的意义和影响。

实际应用

在实践应用中，shape-blind-dataset数据集不仅帮助研究者评估和改进多模态模型的性能，其研究成果也为教育技术领域提供了启示，例如在辅助数学教学和学习中，如何设计更有效的视觉辅助教学材料。

数据集最近研究