five

vcog/vcog-bench

收藏
Hugging Face2024-06-13 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/vcog/vcog-bench
下载链接
链接失效反馈
官方服务:
资源简介:
VCog-Bench是一个公开的零样本抽象视觉推理(AVR)基准,旨在评估多模态大语言模型(MLLMs)的性能。该基准整合了两个知名的AVR数据集,并引入了一个新提出的MaRs-VQA数据集。研究发现,当前最先进的MLLMs和视觉语言模型(VLMs)在AVR任务上表现出一定的理解能力,但在复杂的矩阵推理任务上仍面临挑战。通过提供一个稳健的基准,我们旨在推动零样本抽象视觉推理领域的进一步创新和进展。

VCog-Bench是一个公开的零样本抽象视觉推理(AVR)基准,旨在评估多模态大语言模型(MLLMs)的性能。该基准整合了两个知名的AVR数据集,并引入了一个新提出的MaRs-VQA数据集。研究发现,当前最先进的MLLMs和视觉语言模型(VLMs)在AVR任务上表现出一定的理解能力,但在复杂的矩阵推理任务上仍面临挑战。通过提供一个稳健的基准,我们旨在推动零样本抽象视觉推理领域的进一步创新和进展。
提供机构:
vcog
原始信息汇总

VCog-Bench: Benchmarking Multimodal LLMs on Abstract Visual Reasoning

数据集描述

VCog-Bench 是一个公开的零样本抽象视觉推理(AVR)基准,旨在评估多模态大语言模型(MLLMs)。该基准整合了两个知名的AVR数据集,并包含了一个新提出的MaRs-VQA数据集。

数据集结构

----vcog-bench |----cvr | |----case_name1 | | |----answer | | | |----image | | | | |----x.png | | |----choice | | | |----image | | | | |----sub_image_0.png | | | | |----sub_image_1.png | | | | |----sub_image_2.png | | | | |----sub_image_3.png | |----case_name2 | |----case_name3 | |----case_name4 | |----...... |----raven | |----case_name1 | | |----answer | | | |----image | | | | |----x.jpeg | | |----choice | | | |----image | | | | |----0.jpeg | | | | |----1.jpeg | | | | |----2.jpeg | | | | |----3.jpeg | | | | |----4.jpeg | | | | |----5.jpeg | | | | |----6.jpeg | | | | |----7.jpeg | | | |----text | | | | |----annotation.json | | |----question | | | |----image | | | | |----question.jpeg | |----case_name2 | |----case_name3 | |----case_name4 | |----...... |----marsvqa | |----case_name1 | | |----answer | | | |----image | | | | |----xxx.jpeg | | |----choice | | | |----image | | | | |----xxx.jpeg | | | | |----xxx.jpeg | | | | |----xxx.jpeg | | | | |----xxx.jpeg | | | |----text | | | | |----annotation.json | | |----choiceX | | | |----image | | | | |----xxx.jpeg | | | | |----xxx.jpeg | | | | |----xxx.jpeg | | | | |----xxx.jpeg | | |----question | | | |----image | | | | |----xxx.jpeg | |----case_name2 | |----case_name3 | |----case_name4 | |----......

数据集详情

  • 内容类型: VQA对,包含多张图像输入
  • 数据量:
    • RAVEN: 560 VQA对
    • MaRs-VQA: 480 VQA对
    • CVR: 309 VQA对
  • 数据来源: RAVEN数据集、MaRs-IB、CVR数据集
  • 数据收集方法: 参见论文
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作