LLVisionQA+, LLDescribe+

arXiv2024-02-11 更新2024-07-30 收录

下载链接：

https://github.com/Q-Future/Q-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

LLVisionQA+数据集包含2,990张单张图片和1,999对图片，每张图片都附有一个关于其低级特征的开放式问题。LLDescribe+数据集用于评估MLLMs对499张单张图片和450对图片的低级描述能力。

The LLVisionQA+ dataset consists of 2,990 single images and 1,999 image pairs, with each image accompanied by an open-ended question concerning its low-level features. The LLDescribe+ dataset is utilized to evaluate the low-level image description capabilities of MLLMs across 499 single images and 450 image pairs.

创建时间：

2024-02-11

原始信息汇总

Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision

数据集概述

Q-Bench 是一个用于低级视觉任务的通用基础模型基准，包括三个领域：感知（A1）、描述（A2）和评估（A3）。

数据集组成

感知（A1）：包含 LLVisionQA 数据集。
描述（A2）：包含 LLDescribe 数据集。
评估（A3）：使用公开数据集，并提供抽象评估代码。

数据集使用

数据集可通过 datasets API 进行访问和使用。

Q-Bench (单张图像)

python from datasets import load_dataset

ds = load_dataset("q-future/Q-Bench-HF") print(ds["dev"][0])

Q-Bench2 (图像对)

python from datasets import load_dataset

ds = load_dataset("q-future/Q-Bench2-HF") print(ds["dev"][0])

数据集发布

Q-Bench 和 Q-Bench2 已加入 lmms-eval，便于测试语言模型。
A-Bench 的 GitHub 仓库已上线。

提交指南

选项1：提交结果

下载图像：通过 GitHub Release 或 Huggingface Datasets 下载。
模型测试：推荐将模型转换为 Huggingface 格式进行测试。

选项2：提交模型

提交模型及自定义评估脚本，可通过电子邮件联系数据集维护者。

评估结果

感知（A1）

单张图像：BlueImage-GPT 表现最佳。
图像对：Senior-level Human 表现最佳。

描述（A2）

评估指标包括完整性、精确性和相关性。

评估（A3）

模型能够预测图像质量的定量分数。

联系信息

Haoning Wu, haoning001@e.ntu.edu.sg
Zicheng Zhang, zzc1998@sjtu.edu.cn
Erli Zhang, ezhang005@e.ntu.edu.sg

引用

bibtex @inproceedings{wu2024qbench, author = {Wu, Haoning and Zhang, Zicheng and Zhang, Erli and Chen, Chaofeng and Liao, Liang and Wang, Annan and Li, Chunyi and Sun, Wenxiu and Yan, Qiong and Zhai, Guangtao and Lin, Weisi}, title = {Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision}, booktitle = {ICLR}, year = {2024} }

搜集汇总

背景与挑战

背景概述

LLVisionQA+和LLDescribe+是两个专注于图像低级特征评估的数据集。LLVisionQA+包含大量单张和成对图片，每张图片都配有开放式问题，用于测试模型对低级特征的问答能力；LLDescribe+则用于评估模型对图像低级特征的描述能力，适用于多模态大语言模型的性能测试。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集