OpenVLMRecords

Hugging Face2024-08-08 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/VLMEval/OpenVLMRecords

下载链接

链接失效反馈

官方服务：

资源简介：

OpenVLM Records数据集包含由VLMEvalKit生成的所有评估记录，这些记录反映在OpenVLM Leaderboard上。记录文件按照特定的命名系统组织，每个文件包含特定多模态基准测试中MLLM的原始响应。数据集不直接提供分数或度量文件，但可以通过VLMEvalKit工具获取具体的性能数字。数据集支持中英文，适用于视觉问答任务，大小在1M到10M之间。

创建时间：

2024-07-30

原始信息汇总

OpenVLM Records 数据集概述

基本信息

许可证：Apache-2.0
语言：英语、中文
任务类别：视觉问答
数据规模：1M<n<10M

数据组织与命名

命名系统：评估记录文件按照 mmeval/{VLM-A}/{VLM-A}_{BENCH-B}.xlsx 的格式命名，其中 VLM-A 表示多模态大模型，BENCH-B 表示多模态基准测试。
内容：记录文件包含 VLM-A 在 BENCH-B 中每个问题的原始响应。

性能评估

获取性能指标：使用 vlmutil eval {BENCH-B} mmeval/{VLM-A}/{VLM-A}_{BENCH-B}.xlsx 命令获取特定性能指标。
注意事项：某些基准测试在评估/计算指标时需要 GPT API，因此可能需要设置环境变量以进行 API 调用。

引用

BibTeX： bib @misc{duan2024vlmevalkit, title={VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models}, author={Haodong Duan and Junming Yang and Yuxuan Qiao and Xinyu Fang and Lin Chen and Yuan Liu and Xiaoyi Dong and Yuhang Zang and Pan Zhang and Jiaqi Wang and Dahua Lin and Kai Chen}, year={2024}, eprint={2407.11691}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2407.11691}, }

搜集汇总

数据集介绍

构建方式

OpenVLMRecords数据集的构建依托于VLMEvalKit工具包，该工具包用于评估大规模多模态模型的性能。数据集中的记录文件通过评估特定多模态模型在特定基准测试上的表现生成，并以Excel文件的形式保存。每个记录文件包含了模型在基准测试中每个问题上的原始响应，文件命名遵循`mmeval/{VLM-A}/{VLM-A}_{BENCH-B}.xlsx`的格式，确保了数据的结构化和可追溯性。

特点

OpenVLMRecords数据集的特点在于其专注于多模态模型的评估记录，涵盖了多种语言和任务类别，尤其是视觉问答领域。数据集的规模介于100万到1000万条记录之间，具有较高的多样性和广泛的应用场景。此外，数据集通过OpenVLM排行榜实时更新，反映了当前多模态模型的最新性能表现，为研究人员提供了宝贵的参考资源。

使用方法

使用OpenVLMRecords数据集时，用户需首先安装VLMEvalKit工具包，并通过提供的脚本浏览和解析记录文件。数据集的使用方法包括通过命令行工具`vlmutil eval`获取特定模型在特定基准测试上的性能指标。由于部分基准测试需要调用GPT API进行计算，用户需按照VLMEvalKit的指导设置环境变量。此外，数据集还提供了`RecordBrowser.ipynb`文件，方便用户直观地浏览和探索记录内容。

背景与挑战

背景概述

OpenVLMRecords数据集由OpenCompass团队于2024年创建，旨在为大模型多模态评估提供详尽的记录支持。该数据集依托于VLMEvalKit工具，主要用于视觉问答（Visual Question Answering, VQA）任务，涵盖了多种多模态基准测试的评估结果。其核心研究问题在于如何通过系统化的记录和评估方法，推动多模态大模型在复杂视觉语言任务中的性能提升。该数据集的发布不仅为研究者提供了丰富的评估数据，还通过OpenVLM Leaderboard促进了多模态模型领域的公开竞争与技术进步。

当前挑战

OpenVLMRecords数据集在构建和应用过程中面临多重挑战。首先，视觉问答任务本身具有高度的复杂性，模型需要在理解图像内容的基础上生成准确的文本回答，这对模型的跨模态理解能力提出了极高要求。其次，数据集的构建依赖于多模态基准测试的评估记录，而这些基准测试的多样性和复杂性使得数据整理和标准化成为一大难题。此外，部分基准测试的评估过程需要调用GPT API，这增加了数据集使用的技术门槛和成本。最后，如何确保评估记录的透明性和可复现性，也是该数据集在推广和应用过程中需要持续解决的问题。

常用场景

经典使用场景

OpenVLMRecords数据集在视觉问答（VQA）领域中被广泛用于评估多模态大模型（VLM）的性能。通过该数据集，研究人员可以获取模型在多个多模态基准测试上的原始响应数据，进而分析模型在不同任务中的表现。数据集的组织方式使得用户能够轻松浏览和比较不同模型在相同基准测试上的表现，为模型优化和性能提升提供了重要参考。

解决学术问题

OpenVLMRecords数据集解决了多模态大模型评估中的标准化问题。传统评估方法往往依赖于单一指标或特定任务的表现，难以全面反映模型的综合能力。该数据集通过提供多个基准测试的原始响应数据，使得研究人员能够更全面地评估模型在不同任务中的表现，从而推动多模态大模型的性能优化和理论研究。

衍生相关工作

OpenVLMRecords数据集的发布催生了一系列相关研究工作。例如，基于该数据集的评估结果，研究人员提出了多种多模态大模型的优化方法，包括模型架构改进、训练策略优化等。此外，该数据集还为多模态大模型的基准测试标准化提供了重要参考，推动了该领域的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集