IrohXu/VCog-Bench
收藏VCog-Bench 数据集概述
描述
VCog-Bench 是一个公开的零样本抽象视觉推理(AVR)基准,用于评估多模态大语言模型(MLLMs)。该基准整合了两个知名的 AVR 数据集,并包含一个新提出的 MaRs-VQA 数据集。研究表明,当前最先进的 MLLMs 和视觉语言模型(VLMs)在 AVR 任务上表现出一定的理解能力,但在复杂矩阵推理任务上仍面临挑战。
数据集结构
----vcog-bench |----cvr | |----case_name1 | | |----answer | | | |----image | | | | |----x.png | | |----choice | | | |----image | | | | |----sub_image_0.png | | | | |----sub_image_1.png | | | | |----sub_image_2.png | | | | |----sub_image_3.png | |----case_name2 | |----case_name3 | |----case_name4 | |----...... |----raven | |----case_name1 | | |----answer | | | |----image | | | | |----x.jpeg | | |----choice | | | |----image | | | | |----0.jpeg | | | | |----1.jpeg | | | | |----2.jpeg | | | | |----3.jpeg | | | | |----4.jpeg | | | | |----5.jpeg | | | | |----6.jpeg | | | | |----7.jpeg | | | |----text | | | | |----annotation.json | | |----question | | | |----image | | | | |----question.jpeg | |----case_name2 | |----case_name3 | |----case_name4 | |----...... |----marsvqa | |----case_name1 | | |----answer | | | |----image | | | | |----xxx.jpeg | | |----choice | | | |----image | | | | |----xxx.jpeg | | | | |----xxx.jpeg | | | | |----xxx.jpeg | | | | |----xxx.jpeg | | | |----text | | | | |----annotation.json | | |----choiceX | | | |----image | | | | |----xxx.jpeg | | | | |----xxx.jpeg | | | | |----xxx.jpeg | | | | |----xxx.jpeg | | |----question | | | |----image | | | | |----xxx.jpeg | |----case_name2 | |----case_name3 | |----case_name4 | |----......
数据集详情
- 内容类型: VQA 对,包含多张图像输入
- 数据量:
- RAVEN: 560 VQA 对
- MaRs-VQA: 480 VQA 对
- CVR: 309 VQA 对
- 数据来源: RAVEN 数据集、MaRs-IB、CVR 数据集
- 数据收集方法: 参见论文
参考文献
@misc{cao2024visualcognitiongaphumans, title={What is the Visual Cognition Gap between Humans and Multimodal LLMs?}, author={Xu Cao and Bolin Lai and Wenqian Ye and Yunsheng Ma and Joerg Heintz and Jintai Chen and Jianguo Cao and James M. Rehg}, year={2024}, eprint={2406.10424}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2406.10424}, }




