five

IrohXu/VCog-Bench

收藏
Hugging Face2024-06-28 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/IrohXu/VCog-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
VCog-Bench是一个公开可用的零样本抽象视觉推理(AVR)基准,旨在评估多模态大型语言模型(MLLMs)。该基准集成了来自AI社区的两个著名AVR数据集,并包含一个新提出的MaRs-VQA数据集。VCog-Bench的发现表明,当前最先进的MLLMs和视觉语言模型(VLMs),如GPT-4o和LLaVA-1.6,InternVL,在AVR任务上表现出一些基本的理解能力。然而,这些模型在复杂的矩阵推理任务上仍面临挑战,这突显了在该领域进一步探索和发展的必要性。通过提供一个强大的基准,我们旨在鼓励在零样本抽象视觉推理领域的进一步创新和进步。

VCog-Bench是一个公开可用的零样本抽象视觉推理(AVR)基准,旨在评估多模态大型语言模型(MLLMs)。该基准集成了来自AI社区的两个著名AVR数据集,并包含一个新提出的MaRs-VQA数据集。VCog-Bench的发现表明,当前最先进的MLLMs和视觉语言模型(VLMs),如GPT-4o和LLaVA-1.6,InternVL,在AVR任务上表现出一些基本的理解能力。然而,这些模型在复杂的矩阵推理任务上仍面临挑战,这突显了在该领域进一步探索和发展的必要性。通过提供一个强大的基准,我们旨在鼓励在零样本抽象视觉推理领域的进一步创新和进步。
提供机构:
IrohXu
原始信息汇总

VCog-Bench 数据集概述

描述

VCog-Bench 是一个公开的零样本抽象视觉推理(AVR)基准,用于评估多模态大语言模型(MLLMs)。该基准整合了两个知名的 AVR 数据集,并包含一个新提出的 MaRs-VQA 数据集。研究表明,当前最先进的 MLLMs 和视觉语言模型(VLMs)在 AVR 任务上表现出一定的理解能力,但在复杂矩阵推理任务上仍面临挑战。

数据集结构

----vcog-bench |----cvr | |----case_name1 | | |----answer | | | |----image | | | | |----x.png | | |----choice | | | |----image | | | | |----sub_image_0.png | | | | |----sub_image_1.png | | | | |----sub_image_2.png | | | | |----sub_image_3.png | |----case_name2 | |----case_name3 | |----case_name4 | |----...... |----raven | |----case_name1 | | |----answer | | | |----image | | | | |----x.jpeg | | |----choice | | | |----image | | | | |----0.jpeg | | | | |----1.jpeg | | | | |----2.jpeg | | | | |----3.jpeg | | | | |----4.jpeg | | | | |----5.jpeg | | | | |----6.jpeg | | | | |----7.jpeg | | | |----text | | | | |----annotation.json | | |----question | | | |----image | | | | |----question.jpeg | |----case_name2 | |----case_name3 | |----case_name4 | |----...... |----marsvqa | |----case_name1 | | |----answer | | | |----image | | | | |----xxx.jpeg | | |----choice | | | |----image | | | | |----xxx.jpeg | | | | |----xxx.jpeg | | | | |----xxx.jpeg | | | | |----xxx.jpeg | | | |----text | | | | |----annotation.json | | |----choiceX | | | |----image | | | | |----xxx.jpeg | | | | |----xxx.jpeg | | | | |----xxx.jpeg | | | | |----xxx.jpeg | | |----question | | | |----image | | | | |----xxx.jpeg | |----case_name2 | |----case_name3 | |----case_name4 | |----......

数据集详情

  • 内容类型: VQA 对,包含多张图像输入
  • 数据量:
    • RAVEN: 560 VQA 对
    • MaRs-VQA: 480 VQA 对
    • CVR: 309 VQA 对
  • 数据来源: RAVEN 数据集、MaRs-IB、CVR 数据集
  • 数据收集方法: 参见论文

参考文献

@misc{cao2024visualcognitiongaphumans, title={What is the Visual Cognition Gap between Humans and Multimodal LLMs?}, author={Xu Cao and Bolin Lai and Wenqian Ye and Yunsheng Ma and Joerg Heintz and Jintai Chen and Jianguo Cao and James M. Rehg}, year={2024}, eprint={2406.10424}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2406.10424}, }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
VCog-Bench是一个公开的零样本抽象视觉推理基准数据集,包含1349个VQA对,用于评估多模态大语言模型在视觉认知任务上的表现。该数据集整合了RAVEN、MaRs-VQA和CVR三个子集,旨在揭示当前模型的局限性并推动相关研究进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作