mllm_bench

Hugging Face2026-05-04 更新2026-05-05 收录

下载链接：

https://huggingface.co/datasets/superb2/mllm_bench

下载链接

链接失效反馈

官方服务：

资源简介：

AVR-Bench 是一个多模态视觉推理基准数据集，采用 F/P/R 分解结构：F 代表基于完整图像的多选视觉推理任务，P 代表关于可见任务相关证据的感知探针，R 代表对已知面板的规则归纳探针。默认基准子集包含 2,298 张图像/F 项，扩展后的 F/P/R 任务总数为 19,533 项（其中 F 任务 2,298 项，P 任务 14,937 项，R 任务 2,298 项）。数据集包含多种变体，如默认平衡基准子集、遗留中文平衡子集、小型封闭模型子集等。每个数据集目录包含核心文件，如图像文件、项目清单、答案文件、注释文件等。该数据集适用于视觉问答、图像到文本等多模态视觉推理任务。

创建时间：

2026-04-30

原始信息汇总

AVR-Bench 数据集概述

基本信息

数据集名称: AVR-Bench (又名: AVR-Bench)
任务类型: 视觉问答 (visual-question-answering)、图像到文本 (image-to-text)
语言: 英语 (English)
标签: 多模态、视觉推理、抽象视觉推理、基准测试
数据规模: 1K < n < 10K

数据集结构

AVR-Bench 是一个多模态视觉推理基准，采用 F/P/R 分解 结构：

F 任务: 基于完整图像的多选视觉推理任务
P 任务: 关于可见任务相关证据的感知探针 (perception probes)
R 任务: 基于已知面板的规则归纳探针 (rule-induction probes)

默认子集规模 (default subset)

图像 / F 项数量: 2,298
扩展的 F/P/R 任务总数: 19,533
F 任务: 2,298
P 任务: 14,937
R 任务: 2,298
RI / VP 族划分: 1,149 / 1,149

包含的数据变体

变体名称	说明
`data/unified_avr_plus_mmiq_balanced_ri_vp`	默认平衡基准子集
`data/unified_avr_plus_mmiq_balanced_ri_vp_legacy_cn`	旧版中文平衡子集
`data/unified_avr_plus_mmiq_balanced_ri_vp_closed_15pct`	小型封闭模型子集
`data/unified_avr_plus_mmiq`	原始统一源数据集
`data/english_annotation_runs`	英文标注输出及少量缺失项子集

核心文件列表

每个数据集目录中包含以下核心文件：

items/*.png — 图像文件
manifests/items.jsonl — 项目清单
answers.jsonl — 答案文件
annotations.jsonl — 标注文件
paper_ready_merged_dataset.jsonl — 论文就绪合并数据集
probe_prelabels.jsonl — 探针预标签
reasoning.jsonl — 推理文件
machine_labels_with_ability.jsonl — 带能力标签的机器标注
machine_labels_with_content_perception.jsonl — 带内容感知标签的机器标注
build_summary.json — 构建摘要

搜集汇总

数据集介绍

构建方式

面对多模态大模型在抽象视觉推理任务中评估手段匮乏的困境，AVR-Bench（亦称mllm_bench）应运而生。该数据集以F/P/R三层次分解框架为核心方法论，系统构建了包含完整图像多选视觉推理（F任务）、基于可见证据的感知探测（P任务）以及已知面板规则归纳（R任务）的评测体系。在数据源层面，研究者整合并统一了多个抽象视觉推理数据集，经过严格的平衡采样策略，最终形成默认子集，其中涵盖2298张图像，并由此衍生出总计19533项F/P/R子任务，确保了评测维度的全面性与样本分布的均衡性。

特点

AVR-Bench最显著的创新在于其独特的三层任务解构范式，将复杂的视觉推理能力拆解为可独立量化的感知（Perception）、规则归纳（Rule-induction）与整体推理（Full reasoning）三个维度，为模型能力诊断提供了精细化的分析工具。该基准包含多样化数据变体，例如中文历史子集与小规模封闭模型子集，支持跨语言与跨规模研究。默认子集经过精心设计的平衡处理，在RI与VP任务族中各含1149项样本，有效避免了评测偏差。每个数据目录均配备完整的图像、清单、答案及标注文件，便于研究者进行深度分析与结果复现。

使用方法

研究者可通过HuggingFace平台直接下载AVR-Bench默认子集，获取包含items图像目录、manifests元数据清单、answers答案文件及annotations标注序列在内的核心文件集合。利用项目提供的Python验证脚本，用户能够快速检验数据完整性并计算各项任务的数量分布。该基准支持标准的视觉问答与图像到文本任务范式，适用于多模态大模型的零样本评估或微调测试。研究者可灵活选取F任务衡量整体推理能力，或通过P与R任务进行模块化的能力剖析，亦可结合额外提供的英文标注文件与预标签数据开展更深入的模型行为分析。

背景与挑战

背景概述

AVR-Bench（亦称mllm_bench）是一个面向多模态大语言模型的抽象视觉推理基准，由研究团队于近年构建，旨在填补现有视觉问答评测中缺失的规则推理能力评估。该基准的独特之处在于其F/P/R分解框架：F任务测试基于完整图像的视觉推理，P任务探查模型对可见相关证据的感知能力，R任务则评估模型从已知信息中归纳规则的能力。通过整合多个来源的抽象推理数据集，AVR-Bench提供了平衡的多语言版本（包括中文子集）及多种规模选项，为多模态模型的推理能力、感知鲁棒性与规则泛化能力提供了细粒度、可解释的评测手段，对推动多模态AI从浅层理解向深层推理发展具有重要影响力。

当前挑战

当前多模态模型面临的核心挑战在于抽象视觉推理的薄弱性，即模型难以像人类一样从视觉模式中归纳抽象规则并进行逻辑推导。AVR-Bench通过F/P/R分解精确揭示了这一短板：在感知探测（P任务）中，模型常遗漏任务相关的关键视觉证据；在规则归纳（R任务）中，模型难以从已知面板中正确推导出变换规律。此外，基准构建过程中亦面临挑战，包括如何从异质性原始数据中统一格式并确保任务设计的平衡性，如何生成高质量的英文注释以避免语言偏差，以及如何设计可扩展的探测问题以覆盖多样的推理形态，这些努力共同构成了AVR-Bench作为严谨评测工具的基础。

常用场景

经典使用场景

AVR-Bench（亦称为mllm_bench）是一个专为评估多模态大语言模型在抽象视觉推理能力上的表现而设计的基准数据集。其经典使用场景聚焦于对模型进行三重解构式评测：包括基于完整图像的视觉推理任务（F）、针对可见且任务相关证据的感知探针任务（P），以及从已知面板中归纳规则的推理探针任务（R）。这种F/P/R分解机制使得研究者能够系统性地剖析模型在视觉感知与逻辑归纳方面的能力短板，成为多模态推理领域不可或缺的标准化评估工具。

解决学术问题

该数据集旨在解决多模态大语言模型在抽象视觉推理任务中表现评估不透明、诊断粒度不足的学术难题。传统基准通常只提供整体准确率，难以揭示模型在感知环节与推理环节的各自表现。AVR-Bench通过精细的任务分解，使研究者能够量化区分模型是否真正理解视觉规则，抑或仅依赖浅层视觉特征，从而推动对模型内在推理机制的深入研究。此举显著提升了对多模态模型能力评估的科学性与可解释性，为后续模型改进提供了明确方向。

衍生相关工作

AVR-Bench的提出催生了一系列相关研究工作，包括基于其F/P/R分解框架的模型诊断分析、跨模型推理能力对比研究，以及针对抽象视觉推理任务的数据集扩展与鲁棒性增强方法。此外，该基准催生了多模态模型在感知与推理环节的解耦训练策略，以及融合视觉与语言规则的神经符号推理架构设计。这些工作共同推动了多模态领域从粗粒度评估向细粒度、可解释能力分析的范式演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集