awesome-mllm-benchmarks-samples
收藏Awesome MLLM Benchmarks – Sample Data 数据集概述
数据集基本信息
- 数据集名称: Awesome MLLM Benchmarks Samples
- 托管地址: https://huggingface.co/datasets/lchen1019/awesome-mllm-benchmarks-samples
- 许可证: Apache 2.0
- 任务类别: 视觉问答、问答、图像到文本
- 支持语言: 英语、中文
- 标签: 基准测试、多模态、MLLM、VLM、评估、Awesome-list
- 数据规模: 1K<n<10K
数据集内容与目的
本数据集托管了 Awesome MLLM Benchmarks 交互式仪表板所使用的样本数据(图像、问题、答案、元数据)。它提供了来自 130+ 个多模态大语言模型基准测试、涵盖 20+ 个类别的精选预览样本。
核心统计信息
| 统计项 | 数量 |
|---|---|
| 提供样本的基准测试数量 | 123 |
| 总子任务数 | 246 |
| 总文件数(图像 + 元数据) | ~8,000 |
| 类别数 | 20+ |
每个基准测试文件夹包含 约30个代表性样本(图像和 data.json 元数据文件),无需下载完整基准测试数据集即可快速浏览。
涵盖类别与示例
| 类别 | 示例基准测试 |
|---|---|
| OCR / 文档 / 图表 | TextVQA, DocVQA, ChartQA, OCRBench, ChartX, CC-OCR |
| 空间智能 | BLINK, DA-2K, CV-Bench, All-Angles, VSI-Bench, MMSI-Bench |
| 知识 | MMBench, MMStar, HallusionBench, VibeEval, WorldVQA |
| 数学 | MathVista, MathVision, DynaMath, We-Math, MathCanvas, OlympiadBench |
| 推理与逻辑 | MMMU, LogicVista, EMMA, VisualPuzzles, ARC-AGI |
| STEM | MMMU-Pro, ScienceQA, MEGA-Bench, GPQA-Diamond |
| 感知 | VLMsAreBlind, MMVP, V*, HRBench |
| 基础定位 | RefCOCO, ScreenSpot, FSC-147 |
| 编程 | Design2Code, ChartMimic, UniSVG, FronTalk |
| 医学 | SLAKE, PMC-VQA, MedXpertQA |
| 视频 | VideoMME, MLVU, MVBench, StreamingBench, MotionBench |
| 智能体 | OSWorld, AndroidWorld, Online-Mind2Web |
数据集结构
samples/ ├── <BenchmarkName>/ │ ├── <subtask>/ │ │ ├── data.json # 样本元数据(问题、答案、选项等) │ │ ├── 0_image.jpg # 样本图像 │ │ ├── 1_image.jpg │ │ └── ... │ └── <subtask>/ │ └── ... └── ...
data.json 格式
每个 data.json 是一个样本条目的 JSON 数组。具体字段因基准测试而异,常见字段包括:
| 字段 | 类型 | 描述 |
|---|---|---|
question |
string | 问题或提示 |
image |
string | 关联图像的文件名 |
answer |
string | 真实答案 |
options |
array | 多项选择选项(如果适用) |
部分基准测试包含额外字段,如 category、difficulty、subject、knowledge 等。
使用方式
使用交互式仪表板(推荐)
访问 https://lchen1019.github.io/awesome-mllm-benchmarks 以交互方式浏览样本,并获得完整的渲染支持(LaTeX、图像、多视图等)。
本地克隆
bash
克隆主项目
git clone https://github.com/lchen1019/awesome-mllm-benchmarks.git cd awesome-mllm-benchmarks
从 Hugging Face 下载样本数据
选项1:使用 huggingface_hub
python -c " from huggingface_hub import snapshot_download snapshot_download( repo_id=lchen1019/awesome-mllm-benchmarks-samples, repo_type=dataset, local_dir=samples ) "
选项2:使用 git
git clone https://huggingface.co/datasets/lchen1019/awesome-mllm-benchmarks-samples samples
启动本地服务器
python serve.py 8080
使用 Python 加载
python import json from pathlib import Path
加载特定基准测试的样本
benchmark = "MathVista" subtask = "default" data = json.loads(Path(f"samples/{benchmark}/{subtask}/data.json").read_text())
for sample in data[:3]: print(f"Q: {sample[question][:100]}...") print(f"A: {sample[answer]}") print()
相关资源
- 交互式仪表板: https://lchen1019.github.io/awesome-mllm-benchmarks
- GitHub 仓库: https://github.com/lchen1019/awesome-mllm-benchmarks
引用
bibtex @misc{awesome-mllm-benchmarks, title = {Awesome MLLM Benchmarks: An Interactive Explorer for MLLM Benchmarks}, author = {Chen, Lin}, year = {2026}, howpublished = {url{https://github.com/lchen1019/awesome-mllm-benchmarks}}, note = {Accessed: 2026} }
许可证
本数据集集合根据 Apache 2.0 许可证发布。单个基准测试样本可能受其原始许可证约束。请参阅每个基准测试的来源以了解具体的许可条款。




