vcog/vcog-bench
收藏VCog-Bench: Benchmarking Multimodal LLMs on Abstract Visual Reasoning
数据集描述
VCog-Bench 是一个公开的零样本抽象视觉推理(AVR)基准,旨在评估多模态大语言模型(MLLMs)。该基准整合了两个知名的AVR数据集,并包含了一个新提出的MaRs-VQA数据集。
数据集结构
----vcog-bench |----cvr | |----case_name1 | | |----answer | | | |----image | | | | |----x.png | | |----choice | | | |----image | | | | |----sub_image_0.png | | | | |----sub_image_1.png | | | | |----sub_image_2.png | | | | |----sub_image_3.png | |----case_name2 | |----case_name3 | |----case_name4 | |----...... |----raven | |----case_name1 | | |----answer | | | |----image | | | | |----x.jpeg | | |----choice | | | |----image | | | | |----0.jpeg | | | | |----1.jpeg | | | | |----2.jpeg | | | | |----3.jpeg | | | | |----4.jpeg | | | | |----5.jpeg | | | | |----6.jpeg | | | | |----7.jpeg | | | |----text | | | | |----annotation.json | | |----question | | | |----image | | | | |----question.jpeg | |----case_name2 | |----case_name3 | |----case_name4 | |----...... |----marsvqa | |----case_name1 | | |----answer | | | |----image | | | | |----xxx.jpeg | | |----choice | | | |----image | | | | |----xxx.jpeg | | | | |----xxx.jpeg | | | | |----xxx.jpeg | | | | |----xxx.jpeg | | | |----text | | | | |----annotation.json | | |----choiceX | | | |----image | | | | |----xxx.jpeg | | | | |----xxx.jpeg | | | | |----xxx.jpeg | | | | |----xxx.jpeg | | |----question | | | |----image | | | | |----xxx.jpeg | |----case_name2 | |----case_name3 | |----case_name4 | |----......
数据集详情
- 内容类型: VQA对,包含多张图像输入
- 数据量:
- RAVEN: 560 VQA对
- MaRs-VQA: 480 VQA对
- CVR: 309 VQA对
- 数据来源: RAVEN数据集、MaRs-IB、CVR数据集
- 数据收集方法: 参见论文



