VISFACTOR

Name: VISFACTOR
Creator: 香港中文大学, 香港中文大学（深圳）, 腾讯AI实验室
Published: 2025-02-23 12:21:32
License: 暂无描述

arXiv2025-02-23 更新2025-02-26 收录

下载链接：

https://github.com/CUHK-ARISE/VisFactor

下载链接

链接失效反馈

官方服务：

资源简介：

VISFACTOR是一个基于FRCT的视觉认知基准测试，由香港中文大学、香港中文大学（深圳）和腾讯AI实验室共同开发。该数据集包含15个视觉和空间推理测试，旨在评估大型多模态语言模型在空间推理、感知速度和模式识别等核心视觉认知任务上的能力。测试内容涵盖了从寻找隐藏图形、复制模式到空间扫描和视觉辨别等多种任务，每个任务都针对特定的视觉认知能力。VISFACTOR为研究人员提供了一个自动化的评估框架，以及人类表现基准，以推动在大型多模态语言模型视觉认知能力领域的研究。

VISFACTOR is a FRCT-based visual cognition benchmark jointly developed by The Chinese University of Hong Kong, The Chinese University of Hong Kong, Shenzhen, and Tencent AI Lab. This dataset comprises 15 visual and spatial reasoning tests, designed to evaluate the capabilities of large multimodal language models on core visual cognitive tasks including spatial reasoning, perceptual speed, and pattern recognition. The test contents cover a variety of tasks such as finding hidden figures, reproducing patterns, spatial scanning, and visual discrimination, with each task targeting a specific visual cognitive ability. VISFACTOR provides researchers with an automated evaluation framework and human performance benchmarks to advance research in the field of visual cognitive capabilities of large multimodal language models.

提供机构：

香港中文大学, 香港中文大学（深圳）, 腾讯AI实验室

创建时间：

2025-02-23

搜集汇总

数据集介绍

构建方式

VISFACTOR数据集的构建基于Factor-Referenced Cognitive Test (FRCT)，这是一个广泛认可的心理学评估工具，用于评估人类认知能力。VISFACTOR数字化了FRCT中与视觉相关的子测试，旨在系统地评估多模态大型语言模型（MLLMs）在关键视觉认知任务上的表现，包括空间推理、感知速度和模式识别。该数据集从FRCT中选择了七个视觉导向的子测试，每个测试都针对视觉处理的特定核心方面。VISFACTOR的设计允许在标准化的测试条件下直接对MLLMs进行提示，从而能够与已建立的人类基准进行比较。

特点

VISFACTOR数据集的特点在于它提供了一个自动化的测试流程，用于评估MLLMs的核心视觉推理能力。它包含了一系列视觉和空间推理测试，每个测试都评估了不同的能力，如模式识别、心理旋转、空间可视化和感知组织。此外，VISFACTOR还包含了一个模块，该模块系统地扰动输入图像，通过注入噪声、修改对比度和亮度以及应用空间变换（如平移、旋转和翻转）来增加基准的难度。这使得研究人员能够量化当前MLLMs在适应非标准或降级的视觉输入方面的程度。

使用方法

使用VISFACTOR数据集的方法涉及两个测试模式：默认模式和拆分模式。默认模式遵循原始测试设计，而拆分模式旨在简化问题，将多项选择题转换为二进制（是-否）问题。此外，VISFACTOR还提供了一个模块，该模块通过注入噪声、修改对比度和亮度以及应用空间变换（如平移、旋转和翻转）来系统地扰动输入图像，从而增加了基准的难度。这使得研究人员能够量化当前MLLMs在适应非标准或降级的视觉输入方面的程度。

背景与挑战

背景概述

随着多模态大语言模型（MLLMs）在多模态理解方面取得显著进展，对其基础视觉认知能力的研究却相对较少。为了填补这一空白，香港中文大学、北京大学、香港中文大学（深圳）和腾讯AI实验室的研究人员共同推出了VISFACTOR数据集。该数据集基于Factor-Referenced Cognitive Test（FRCT），这是一个广泛认可的心理测量评估人类认知的工具。VISFACTOR通过数字化FRCT中的视觉相关子测试，系统地评估MLLMs在空间推理、感知速度和模式识别等关键视觉认知任务上的表现。研究结果表明，当前MLLMs在基础视觉认知方面存在严重不足，即使采用了高级提示技术，性能提升也微乎其微。VISFACTOR的发布为该领域的研究提供了重要的基准，有助于推动MLLMs核心视觉推理能力的提升。

当前挑战

VISFACTOR数据集的挑战主要在于当前MLLMs的基础视觉认知能力不足。尽管在多模态理解方面取得了显著进展，但MLLMs在执行基础视觉推理任务时，其性能接近随机猜测，且即使采用高级提示技术，如思维链和多人辩论，性能提升也微乎其微。此外，研究还发现MLLMs在关注关键细节、处理几何形状、评估相对位置和进行空间推理方面存在限制。为了解决这些挑战，需要进一步研究MLLMs的架构和训练方法，以提高其在基础视觉认知任务上的性能。

常用场景

经典使用场景

VISFACTOR 数据集主要用于评估多模态大型语言模型（MLLMs）在视觉认知任务上的基本能力。该数据集模拟了人类认知测试中的视觉相关子测试，涵盖了空间推理、感知速度和模式识别等核心视觉认知任务。研究人员使用 VISFACTOR 对包括 GPT-4o、GeminiPro 和 Qwen-VL 在内的最先进的 MLLMs 进行了全面评估，并采用了多种提示策略，如思维链和多人辩论。研究发现，当前 MLLMs 在基本视觉认知方面的表现令人担忧，其性能经常接近随机猜测，即使在使用先进的提示技术后也只取得了微小的改进。这些结果突出了专注于研究以增强 MLLMs 核心视觉推理能力的必要性。

实际应用

VISFACTOR 数据集的实际应用场景包括教育、医疗和工业等领域。在教育领域，该数据集可用于评估和改进学生的视觉认知能力。在医疗领域，VISFACTOR 可用于评估和训练医生的视觉诊断能力。在工业领域，该数据集可用于评估和改进机器人的视觉感知能力。此外，VISFACTOR 还可用于开发更智能的人机交互系统，例如智能助手和自动驾驶汽车。

衍生相关工作

VISFACTOR 数据集的发布促进了相关研究的开展，并衍生了一系列经典工作。例如，Fu 等人提出了 Blink 数据集，揭示了 MLLMs 在细微视觉感知方面的困难。Wu 等人发现 MLLMs 在 NLVR 任务上的表现不佳，该任务需要组合和空间推理。此外，VISFACTOR 还激发了其他研究，如 Zhang 等人使用 Raven 的渐进矩阵来评估 MLLMs 的视觉演绎推理能力。这些相关工作共同推动了 MLLMs 视觉认知能力的研究和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集