awesome-mllm-benchmarks-samples

Hugging Face2026-03-29 更新2026-03-30 收录

大模型评估

视觉问答

数据链接：

https://huggingface.co/datasets/lchen1019/awesome-mllm-benchmarks-samples 数据链接链接失效反馈

官方服务：

资源简介：

Awesome MLLM Benchmarks Samples 数据集是一个用于多模态大型语言模型（MLLM）评估的样本数据集，包含了来自130多个多模态LLM基准测试的精选样本，涵盖20多个类别。该数据集主要用于视觉问答、问答和图像到文本等任务，包含约8,000个文件（图像和元数据）。每个基准测试文件夹包含约30个代表性样本，每个样本包括图像和一个包含问题、答案等元数据的data.json文件。数据集结构清晰，便于快速浏览和使用。该数据集适用于多模态模型的研究、开发和评估，支持通过交互式仪表板或本地克隆方式访问。数据集发布在Apache 2.0许可证下，但个别样本可能受其原始许可证约束。

The Awesome MLLM Benchmarks Samples Dataset is a sample dataset dedicated to the evaluation of Multimodal Large Language Models (MLLMs). It comprises curated samples sourced from over 130 multimodal LLM benchmarks, spanning more than 20 categories. The dataset is primarily intended for tasks including visual question answering, general question answering, and image-to-text generation, and contains approximately 8,000 total files (images and metadata). Each benchmark folder contains around 30 representative samples, with each sample consisting of an image and a data.json file storing metadata such as questions and answers. The dataset has a clear and well-organized structure, enabling quick browsing and practical utilization. It is suitable for research, development, and evaluation of multimodal models, and supports access via either an interactive dashboard or local cloning. The dataset is released under the Apache 2.0 license, though individual samples may be subject to their original license terms.

创建时间：

2026-03-21

原始信息汇总

Awesome MLLM Benchmarks – Sample Data 数据集概述

数据集基本信息

数据集名称: Awesome MLLM Benchmarks Samples
托管地址: https://huggingface.co/datasets/lchen1019/awesome-mllm-benchmarks-samples
许可证: Apache 2.0
任务类别: 视觉问答、问答、图像到文本
支持语言: 英语、中文
标签: 基准测试、多模态、MLLM、VLM、评估、Awesome-list
数据规模: 1K<n<10K

数据集内容与目的

本数据集托管了 Awesome MLLM Benchmarks 交互式仪表板所使用的样本数据（图像、问题、答案、元数据）。它提供了来自 130+ 个多模态大语言模型基准测试、涵盖 20+ 个类别的精选预览样本。

核心统计信息

统计项	数量
提供样本的基准测试数量	123
总子任务数	246
总文件数（图像 + 元数据）	~8,000
类别数	20+

每个基准测试文件夹包含 约30个代表性样本（图像和 data.json 元数据文件），无需下载完整基准测试数据集即可快速浏览。

涵盖类别与示例

类别	示例基准测试
OCR / 文档 / 图表	TextVQA, DocVQA, ChartQA, OCRBench, ChartX, CC-OCR
空间智能	BLINK, DA-2K, CV-Bench, All-Angles, VSI-Bench, MMSI-Bench
知识	MMBench, MMStar, HallusionBench, VibeEval, WorldVQA
数学	MathVista, MathVision, DynaMath, We-Math, MathCanvas, OlympiadBench
推理与逻辑	MMMU, LogicVista, EMMA, VisualPuzzles, ARC-AGI
STEM	MMMU-Pro, ScienceQA, MEGA-Bench, GPQA-Diamond
感知	VLMsAreBlind, MMVP, V*, HRBench
基础定位	RefCOCO, ScreenSpot, FSC-147
编程	Design2Code, ChartMimic, UniSVG, FronTalk
医学	SLAKE, PMC-VQA, MedXpertQA
视频	VideoMME, MLVU, MVBench, StreamingBench, MotionBench
智能体	OSWorld, AndroidWorld, Online-Mind2Web

数据集结构

samples/ ├── <BenchmarkName>/ │ ├── <subtask>/ │ │ ├── data.json # 样本元数据（问题、答案、选项等） │ │ ├── 0_image.jpg # 样本图像 │ │ ├── 1_image.jpg │ │ └── ... │ └── <subtask>/ │ └── ... └── ...

`data.json` 格式

每个 data.json 是一个样本条目的 JSON 数组。具体字段因基准测试而异，常见字段包括：

字段	类型	描述
`question`	string	问题或提示
`image`	string	关联图像的文件名
`answer`	string	真实答案
`options`	array	多项选择选项（如果适用）

部分基准测试包含额外字段，如 category、difficulty、subject、knowledge 等。

使用方式

使用交互式仪表板（推荐）

访问 https://lchen1019.github.io/awesome-mllm-benchmarks 以交互方式浏览样本，并获得完整的渲染支持（LaTeX、图像、多视图等）。

本地克隆

bash

克隆主项目

git clone https://github.com/lchen1019/awesome-mllm-benchmarks.git cd awesome-mllm-benchmarks

从 Hugging Face 下载样本数据

选项1：使用 huggingface_hub

python -c " from huggingface_hub import snapshot_download snapshot_download( repo_id=lchen1019/awesome-mllm-benchmarks-samples, repo_type=dataset, local_dir=samples ) "

选项2：使用 git

git clone https://huggingface.co/datasets/lchen1019/awesome-mllm-benchmarks-samples samples

启动本地服务器

python serve.py 8080

使用 Python 加载

python import json from pathlib import Path

加载特定基准测试的样本

benchmark = "MathVista" subtask = "default" data = json.loads(Path(f"samples/{benchmark}/{subtask}/data.json").read_text())

for sample in data[:3]: print(f"Q: {sample[question][:100]}...") print(f"A: {sample[answer]}") print()

引用

bibtex @misc{awesome-mllm-benchmarks, title = {Awesome MLLM Benchmarks: An Interactive Explorer for MLLM Benchmarks}, author = {Chen, Lin}, year = {2026}, howpublished = {url{https://github.com/lchen1019/awesome-mllm-benchmarks}}, note = {Accessed: 2026} }

许可证

本数据集集合根据 Apache 2.0 许可证发布。单个基准测试样本可能受其原始许可证约束。请参阅每个基准测试的来源以了解具体的许可条款。

搜集汇总

数据集介绍

构建方式

在人工智能多模态大语言模型评估领域，数据集构建的科学性与系统性至关重要。Awesome MLLM Benchmarks样本数据集通过精心筛选与整合，从超过130个多模态基准测试中提取代表性样本。其构建过程遵循结构化原则，为每个基准测试的子任务整理约30个样本，涵盖图像与配套的元数据文件。这种分层组织方式确保了样本的多样性与覆盖广度，使得研究人员无需下载完整庞大数据集即可进行高效的初步探索与验证。

特点

该数据集的核心特点在于其广泛的覆盖范围与精细的类别划分。它汇聚了来自二十余个专业类别的多模态评估任务，包括光学字符识别、空间智能、知识推理、数学计算以及医学影像分析等前沿方向。数据集不仅提供了图像与文本问答对，还保留了原始基准测试的丰富元信息，如题目难度、学科分类与知识类型。这种多维度的数据表征为深入分析模型在不同认知维度上的能力差异提供了坚实基础。

使用方法

为充分发挥该数据集的价值，研究者可通过多种途径进行访问与应用。最便捷的方式是使用其配套的交互式仪表板，该平台支持LaTeX公式渲染、多视图图像展示等高级功能，便于直观浏览。对于本地化分析，用户可以通过Hugging Face Hub或Git克隆获取数据，并利用提供的Python脚本加载特定基准测试的样本进行程序化处理。这种灵活的使用方式既支持快速的定性观察，也满足深入的定量研究与模型评估需求。

背景与挑战

背景概述

随着多模态大语言模型（MLLM）技术的迅猛发展，评估其综合能力成为人工智能领域的关键课题。Awesome MLLM Benchmarks – Sample Data数据集由研究者Lin Chen于2026年创建，旨在为学术界和工业界提供一个集中、可交互的基准测试样本库。该数据集精心整合了超过130个多模态基准测试中的代表性样本，覆盖OCR、空间智能、知识推理、数学计算、STEM、医疗、视频理解及智能体等20余个核心类别。其核心研究问题在于如何系统化地评估MLLM在多样化、复杂真实场景下的感知、认知与推理能力，从而推动模型在跨模态理解与生成任务上的标准化测评与持续优化。该资源通过交互式仪表盘与结构化样本数据，显著降低了研究人员探索与比较不同基准的门槛，对多模态人工智能的评估生态产生了深远影响。

当前挑战

该数据集致力于解决多模态大语言模型评估领域的关键挑战，即如何设计全面、公平且可扩展的基准测试体系以准确衡量模型在跨模态任务中的综合性能。具体挑战包括：在领域问题层面，需要应对评估维度的高度碎片化——不同基准在任务定义、难度等级、评价指标上存在显著差异，导致模型能力对比困难；同时，模型可能面临在特定领域（如医学图像分析或复杂图表推理）表现优异，却在其他需要常识或时空推理的任务上泛化能力不足的问题。在构建过程中，挑战主要源于数据整合的复杂性：需从百余个来源各异的基准中提取代表性样本，并统一其元数据格式，同时确保样本的多样性、平衡性以及版权合规性，这要求极高的工程协调与数据治理能力。

常用场景

经典使用场景

在多模态大语言模型（MLLM）研究领域，评估模型性能需要依赖广泛且多样的基准测试。Awesome MLLM Benchmarks Samples数据集通过整合超过130个基准测试的代表性样本，为研究人员提供了一个高效的预览与探索平台。其经典使用场景在于快速比较和筛选适合特定任务的基准，例如在模型开发初期，研究者无需下载庞大的完整数据集，即可通过约30个精选样本直观了解不同基准在OCR、空间推理、知识问答等20多个类别上的任务设计与难度分布，从而加速实验规划与模型评估流程。

实际应用

在实际应用层面，该数据集直接服务于模型开发团队与评估社区。工程师和研究者可以利用其交互式面板或本地样本，快速验证模型在特定场景下的初步表现，例如检验模型对医学图像的理解能力或对科学图表的解析精度。这种轻量化的预览机制显著降低了全量数据评估的计算与时间成本，使得资源有限的团队也能进行有效的模型选型与迭代。同时，它也为教育领域提供了丰富的教学案例，帮助学生直观理解多模态任务的不同类型与挑战。

衍生相关工作

围绕该数据集衍生的经典工作主要体现在评估框架与元分析工具的构建上。其核心项目“Awesome MLLM Benchmarks”交互式仪表盘已成为社区广泛引用的基准导航器。在此基础上，后续研究常借鉴其分类体系与样本选取逻辑，来设计新的综合性评估基准或进行跨基准的模型性能元分析。例如，一些研究通过对比该数据集涵盖的多个知识类或推理类基准样本，来深入探讨模型在不同认知层级上的能力一致性，从而催生了更精细的模型诊断方法与评估理论。

以上内容由遇见数据集搜集并总结生成