IrohXu/VCog-Bench

Name: IrohXu/VCog-Bench
Creator: IrohXu
Published: 2024-06-28 00:09:38
License: 暂无描述

Hugging Face2024-06-28 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/IrohXu/VCog-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

VCog-Bench是一个公开可用的零样本抽象视觉推理（AVR）基准，旨在评估多模态大型语言模型（MLLMs）。该基准集成了来自AI社区的两个著名AVR数据集，并包含一个新提出的MaRs-VQA数据集。VCog-Bench的发现表明，当前最先进的MLLMs和视觉语言模型（VLMs），如GPT-4o和LLaVA-1.6，InternVL，在AVR任务上表现出一些基本的理解能力。然而，这些模型在复杂的矩阵推理任务上仍面临挑战，这突显了在该领域进一步探索和发展的必要性。通过提供一个强大的基准，我们旨在鼓励在零样本抽象视觉推理领域的进一步创新和进步。

提供机构：

IrohXu

原始信息汇总

VCog-Bench 数据集概述

描述

VCog-Bench 是一个公开的零样本抽象视觉推理（AVR）基准，用于评估多模态大语言模型（MLLMs）。该基准整合了两个知名的 AVR 数据集，并包含一个新提出的 MaRs-VQA 数据集。研究表明，当前最先进的 MLLMs 和视觉语言模型（VLMs）在 AVR 任务上表现出一定的理解能力，但在复杂矩阵推理任务上仍面临挑战。

数据集结构

数据集详情

内容类型: VQA 对，包含多张图像输入
数据量:
- RAVEN: 560 VQA 对
- MaRs-VQA: 480 VQA 对
- CVR: 309 VQA 对
数据来源: RAVEN 数据集、MaRs-IB、CVR 数据集
数据收集方法: 参见论文

参考文献

@misc{cao2024visualcognitiongaphumans, title={What is the Visual Cognition Gap between Humans and Multimodal LLMs?}, author={Xu Cao and Bolin Lai and Wenqian Ye and Yunsheng Ma and Joerg Heintz and Jintai Chen and Jianguo Cao and James M. Rehg}, year={2024}, eprint={2406.10424}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2406.10424}, }

搜集汇总

数据集介绍

背景与挑战

背景概述

VCog-Bench是一个公开的零样本抽象视觉推理基准数据集，包含1349个VQA对，用于评估多模态大语言模型在视觉认知任务上的表现。该数据集整合了RAVEN、MaRs-VQA和CVR三个子集，旨在揭示当前模型的局限性并推动相关研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集