VLM Benchmarks

github2026-04-09 更新2026-04-10 收录

下载链接：

https://github.com/Overshoot-ai/vlm-benchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

一个全面的、自动更新的目录，包含2671个基准测试，用于评估视觉语言模型（VLMs）、多模态LLMs和视频理解模型。每日通过自动扫描arXiv更新。

A comprehensive, automatically updated catalog featuring 2,671 benchmarks for evaluating Vision-Language Models (VLMs), multimodal large language models, and video understanding models. It is updated daily via automated arXiv scans.

创建时间：

2026-04-09

原始信息汇总

VLM Benchmarks 数据集概述

数据集基本信息

数据集名称：VLM Benchmarks
数据规模：包含 2,671 个基准测试 的目录
更新频率：每日通过自动化 arXiv 扫描更新
目标模型：用于评估视觉语言模型（VLMs）、多模态大语言模型和视频理解模型

数据内容与格式

可用格式：
1. 结构化、可编程访问格式：data/benchmarks.json
2. 电子表格友好格式：data/benchmarks.csv
数据模式（Schema）：
- benchmark_name：基准测试名称
- category：分类（参见下方类别）
- num_samples：样本/问题/视频数量
- modalities：输入模态（图像、视频、文本、音频、3D）
- task_types：评估任务类型（多项选择题、开放式问答、字幕生成等）
- description：该基准测试的独特之处
- repo_links：代码和数据的 GitHub/HuggingFace 链接
- paper_title：完整论文标题
- arxiv_id：arXiv 标识符
- arxiv_url：arXiv 页面链接
- published：发布日期
- authors：前 5 位作者

类别覆盖范围

涵盖 22 个类别，包括通用多模态、视觉推理、视频理解、医学、安全性、空间、文档/OCR 等。

使用示例

python import json

with open("data/benchmarks.json") as f: benchmarks = json.load(f)

按类别筛选

video = [b for b in benchmarks if b["category"] == "video_understanding"]

查找数据可用的基准测试

has_data = [b for b in benchmarks if b["repo_links"]]

数据收集方式

每日通过 GitHub Action 扫描 arXiv 以查找新的 VLM 基准测试论文，使用 Claude 进行分类，提取存储库链接，并将任何新条目提交到此仓库。

许可证

MIT 许可证

搜集汇总

数据集介绍

构建方式

在视觉-语言模型评估领域，数据集的构建通常依赖于对学术文献的系统性整理与自动化处理。VLM Benchmarks的构建过程体现了这一趋势，通过部署每日自动运行的GitHub Action工作流，持续扫描arXiv平台上新发布的视觉-语言模型基准测试论文。系统利用先进的自然语言处理模型对论文内容进行自动分类，并从中提取关键元数据，如基准名称、任务类别、样本规模及代码仓库链接等，最终以结构化的JSON和CSV格式整合入库，确保了数据集的时效性与可扩展性。

特点

该数据集作为视觉-语言模型评估领域的综合性资源，其核心特点在于收录了涵盖22个不同类别的2671个基准测试，范围从通用多模态理解延伸至视频理解、医疗影像、空间推理及文档OCR等专业领域。数据集通过每日自动更新机制，持续纳入最新的学术成果，保证了内容的动态性与前沿性。其提供的结构化数据格式便于程序化访问，每个条目均包含详细的元数据字段，如任务类型、输入模态及数据来源链接，为研究者提供了系统化的评估工具索引。

使用方法

研究者可通过下载数据集提供的JSON或CSV文件，便捷地集成到本地分析流程中。利用Python等编程语言加载数据后，用户能够依据基准类别、任务类型或数据可用性等维度进行灵活筛选与查询。例如，通过简单的代码即可提取所有视频理解领域的基准，或筛选出已公开代码与数据的条目，从而快速定位适合特定研究需求的评估工具。数据集的结构化设计支持高效的元数据分析，助力模型评估与比较研究的系统化开展。

背景与挑战

背景概述

随着视觉-语言模型（VLM）和多模态大语言模型的快速发展，对标准化评估基准的需求日益迫切。VLM Benchmarks由Overshoot机构创建并维护，作为一个综合性、自动更新的基准目录，旨在系统化地收录和整理用于评估视觉-语言模型、多模态大语言模型及视频理解模型的各类基准。该数据集通过每日自动化扫描arXiv论文，动态追踪最新研究成果，涵盖了从通用多模态理解到视觉推理、视频理解、医学影像、安全性评估等22个类别，总计收录超过2,600项基准，为研究者提供了结构化的数据访问接口，显著推动了多模态人工智能领域的评估标准化与比较研究。

当前挑战

在视觉-语言模型评估领域，核心挑战在于如何设计全面且公平的基准以准确衡量模型在多样任务上的性能，这些任务包括图像分类、视觉问答、视频理解等，需克服模态对齐、上下文理解及跨领域泛化等难题。数据集构建过程中，面临自动化收集与分类的挑战，例如从海量arXiv论文中精准识别相关基准、提取结构化信息并确保每日更新的时效性与准确性，同时需处理多模态数据格式的异构性以及基准描述的主观性，以维持数据的一致性与可靠性。

常用场景

经典使用场景

在视觉-语言模型（VLM）与多模态大语言模型（MM-LLM）的快速发展背景下，VLM Benchmarks作为一个全面且自动更新的基准目录，其最经典的使用场景在于为研究者提供系统化的模型评估框架。通过整合涵盖图像理解、视频分析、文档OCR及医疗影像等22个类别的2671个基准，该数据集使得研究人员能够便捷地筛选与特定任务或模态相匹配的评估标准，从而在统一的度量体系下对比不同模型的性能，推动多模态人工智能领域的标准化评测。

实际应用

在实际应用中，VLM Benchmarks为工业界与学术界的模型开发团队提供了即插即用的评估工具链。工程师可依据特定应用场景（如自动驾驶中的视频理解、医疗影像诊断或文档智能处理）快速定位相关基准，验证模型在真实任务中的鲁棒性与泛化能力。同时，其每日自动更新机制确保了企业能够及时纳入新兴评测标准，保持技术评估的前瞻性，从而优化产品部署策略，降低模型在实际环境中的失效风险。

衍生相关工作

围绕VLM Benchmarks，已衍生出多项经典研究工作，例如基于其分类体系构建的跨模态能力分析框架，以及利用基准元数据开展的模型性能预测研究。这些工作通常借助该数据集的结构化信息，深入探索不同任务类别间的关联性，或开发自动化基准推荐系统。此外，部分研究进一步扩展了其分类维度，引入了安全性、伦理偏差等专项评估类别，推动了多模态评估向更细致、更负责任的方向演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集