Q-Bench

github2024-01-08 更新2024-05-31 收录

下载链接：

https://github.com/Q-Future/Chinese-Q-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

质衡 (Q-Bench) 是一个全新的基准，专门为测试中文多模态大模型在低层次机器视觉任务中的性能而设计。此基准集中于三个主要领域：感知（A1），描述（A2）和评估（A3）。这些领域分别对应于多模态大模型在理解和描述视觉信息方面的不同能力。

Q-Bench (Q-Bench) is a novel benchmark specifically designed to evaluate the performance of Chinese multimodal large models in low-level machine vision tasks. This benchmark focuses on three main areas: perception (A1), description (A2), and evaluation (A3). These areas correspond to the different capabilities of multimodal large models in understanding and describing visual information.

创建时间：

2023-10-11

原始信息汇总

数据集概述

质衡 (Q-Bench) 是一个专门为测试中文多模态大模型在低层次机器视觉任务中的性能而设计的基准。该基准集中于三个主要领域：感知（A1），描述（A2）和评估（A3）。

A1: 感知（问答）

数据集划分：分为验证集和测试集。
图片发布位置：huggingface仓库。
中文标注地址：
- 验证集：链接
- 测试集：链接

A2: 描述

图片发布位置：huggingface仓库。

A3: 评价

数据集下载：请参考英文指南下载各个公开的图像质量评价数据集。

榜单

A1: 感知（问答）

模型表现：大部分模型的中文表现略逊于英文表现，其中internlm-xcomposer-vl中文表现与英文表现基本相当。
详细榜单：提供了验证集和测试集的具体模型表现分数。

A2: 描述

任务特点：由于主观性强，中文和英文的描述任务分数难以直接比较。
当前榜单：仅供参考，因准确性评价指标的绝对分数存在问题。

A3: 评价

当前状态：由于中文语序/语法的原因，类似于英文Q-Bench的质量评价方案暂不适用中文。

联系

开发团队：新加坡南洋理工大学和中国上海交通大学。
主要作者联系方式：
- Haoning Wu, haoning001@e.ntu.edu.sg, @teowu
- Zicheng Zhang, zzc1998@sjtu.edu.cn, @zzc-1998
- Erli Zhang, ezhang005@e.ntu.edu.sg, @ZhangErliCarl

搜集汇总

数据集介绍

构建方式

Q-Bench数据集的构建旨在评估中文多模态大模型在低层次视觉任务中的性能。该数据集通过精心设计的三个主要领域——感知（A1）、描述（A2）和评估（A3）——来全面测试模型在理解和描述视觉信息方面的能力。数据集的构建过程中，研究者们将感知任务的数据集划分为验证集和测试集，并分别提供了相应的中文标注。描述任务所需的图片则通过独立的文件发布，而评估任务则参考了英文指南中的公开图像质量评价数据集。

使用方法

使用Q-Bench数据集时，研究者可以通过下载验证集和测试集的中文标注文件，以及描述任务所需的图片文件，来进行模型的性能评估。感知任务的评估可以通过对比模型在验证集和测试集上的表现来进行，而描述任务则可以通过GPT辅助测评来评估模型的描述能力。评估任务则参考了英文指南中的公开图像质量评价数据集，研究者可以根据需要选择合适的数据集进行测试。通过这种方式，Q-Bench数据集为研究者提供了一个全面且灵活的评估平台。

背景与挑战

背景概述

Q-Bench是由新加坡南洋理工大学和中国上海交通大学的研究团队于2023年共同开发的一个全新基准测试工具，旨在评估中文多模态大模型在低层次机器视觉任务中的性能。该基准测试聚焦于感知、描述和评估三个核心领域，分别对应多模态大模型在理解和描述视觉信息方面的能力。Q-Bench的创建标志着中文多模态大模型在底层视觉任务中的首次系统性评估，填补了该领域的研究空白，并为未来的模型优化提供了重要参考。

当前挑战

Q-Bench在构建和应用过程中面临多重挑战。首先，中文多模态大模型在底层视觉任务中的表现普遍逊色于英文模型，如何提升中文模型的表现成为亟待解决的问题。其次，描述任务中GPT辅助测评的主观性较强，导致中文描述任务的分数难以与英文直接比较，且准确性评价指标的绝对分数存在偏差。此外，由于中文语序和语法的特殊性，现有的图像质量评价方案无法直接应用于中文，需要开发针对性的中文IQA设计方案。这些挑战不仅影响了Q-Bench的全面性和准确性，也为未来的研究提出了新的方向。

常用场景

经典使用场景

Q-Bench数据集在底层视觉任务中，主要用于评估多模态大模型在中文环境下的表现。通过感知、描述和评估三个主要领域，该数据集能够全面测试模型在理解和描述视觉信息方面的能力。特别是在中文问答和描述任务中，Q-Bench为研究者提供了一个标准化的基准，帮助验证模型在中文语境下的准确性和鲁棒性。

解决学术问题

Q-Bench数据集解决了多模态大模型在中文底层视觉任务中的性能评估问题。通过提供标准化的测试集和验证集，研究者能够量化模型在中文环境下的表现，并识别其在感知、描述和评估任务中的不足。这一数据集为学术界提供了一个统一的评估框架，推动了多模态大模型在中文视觉任务中的研究进展。

实际应用

在实际应用中，Q-Bench数据集可用于优化多模态大模型在中文视觉任务中的表现。例如，在智能客服、图像识别和自动生成描述等场景中，该数据集能够帮助开发者评估和提升模型的中文处理能力。通过使用Q-Bench，企业能够确保其多模态模型在中文环境下的准确性和用户体验。

数据集最近研究