Q-EVAL-100K

Name: Q-EVAL-100K
Creator: 上海交通大学
Published: 2025-03-04 15:28:45
License: 暂无描述

arXiv2025-03-04 更新2025-03-06 收录

下载链接：

https://github.com/zzc-1998/Q-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

Q-EVAL-100K数据集是由上海交通大学研究团队创建的，旨在评估视觉质量和对齐级别的文本到视觉内容评价数据集。该数据集包含100K个实例，涵盖了文本到图像和文本到视频模型，共有960K个针对视觉质量和对齐度的人工标注。数据集通过精心设计的实验过程和标准，确保了标注的高质量，适用于大型多模态模型的学习，以提升视觉质量和对齐度的评价能力。

The Q-EVAL-100K dataset, developed by a research team from Shanghai Jiao Tong University, is a text-to-visual content evaluation dataset intended for assessing visual quality and alignment. It consists of 100K instances covering text-to-image and text-to-video models, with a total of 960K human annotations dedicated to visual quality and alignment evaluation. The dataset adopts meticulously designed experimental protocols and standards to ensure high-quality annotations, making it suitable for training large multimodal models to enhance their ability in evaluating visual quality and alignment.

提供机构：

上海交通大学

创建时间：

2025-03-04

搜集汇总

数据集介绍

构建方式

Q-EVAL-100K数据集的构建基于对文本到视觉内容（图像和视频）的视觉质量和对齐水平的评估需求。该数据集包含了60,000个图像和40,000个视频实例，总计100,000个实例，每个实例都有960,000个由人类标注的平均意见分数（MOS）。构建过程包括设计多样化的提示，使用多个生成模型生成内容，以及通过严格的样本和审查策略进行主观评估，以确保标注质量。标注过程由超过200名人类参与者进行，并对每个实例进行多次标注，以计算平均值。

使用方法

Q-EVAL-100K数据集的使用方法包括将其作为监督微调（SFT）数据集，以将知识注入到大型多模态模型（LMMs）中。数据集中的分数被转换为基于形容词的评分，并在结构化的上下文提示格式中进行重新表述，以提高LMMs在视觉质量和对齐评估方面的能力。此外，对于长文本提示的对齐评估，数据集提出了模糊到具体的策略，将长提示转换为模糊版本和多个具体的提示，以获得更准确的评估分数。

背景与挑战

背景概述

Q-EVAL-100K数据集的研究背景在于对文本到视觉内容的质量和一致性进行评估。该数据集由上海交通大学和美团的研究人员于2024年创建，旨在解决当前文本到视觉内容生成过程中存在的质量不足和一致性不佳的问题。Q-EVAL-100K数据集包含了960K个人类标注的平均意见分数（MOS），专注于视觉质量和一致性这两个关键维度，覆盖了100K个实例（60K张图像和40K个视频）。该数据集的创建填补了当前文本到视觉评估数据集规模不足的空白，为大型多模态模型（LMMs）的评估和应用提供了重要的基础。Q-EVAL-100K数据集对相关领域产生了深远的影响，推动了文本到视觉内容评估的标准化和自动化进程。

当前挑战

Q-EVAL-100K数据集所面临的挑战主要包括：1) 所解决的领域问题：文本到视觉内容生成过程中，如何有效评估内容的视觉质量和一致性，确保生成内容的质量和准确性。2) 构建过程中所遇到的挑战：如何确保大规模数据集的标注质量，以及如何有效地利用LMMs进行评估。为了解决这些挑战，研究人员提出了Q-Eval-Score，一个统一的评估框架，能够独立评估视觉质量和一致性，并提供每个维度的单独分数。此外，为了提高长文本提示的一致性评估，研究人员还提出了Vague-to-Specific策略，将长文本提示转换为更具体的提示，以提高评估的准确性。

常用场景

经典使用场景

Q-EVAL-100K数据集主要用于评估文本到视觉内容的视觉质量和对齐程度。该数据集包含了大量的由人工标注的均值意见得分（MOS），涵盖了960K个关于视觉质量和对齐程度的标注，针对100K个实例（包括60K张图像和40K段视频）。利用这个数据集，研究人员可以训练统一的模型Q-Eval-Score，该模型能够独立评估视觉质量和对齐程度，并为每个维度提供单独的评分。

解决学术问题

Q-EVAL-100K数据集解决了当前文本到视觉内容评估中存在的几个关键问题。首先，它系统地捕获了文本到视觉内容的关键评估维度，避免了不必要的复杂性。其次，它将视觉质量和对齐程度解耦，提供了分别针对每个维度的评分，从而使得评估结果更加完整和清晰。最后，它具有更大的规模，能够充分利用大型多模态模型（LMMs）的潜力，提高其在现实世界场景中的适用性和泛化能力。

实际应用

Q-EVAL-100K数据集在实际应用中具有广泛的价值。它可以帮助研究人员和开发人员更好地理解文本到视觉内容的生成过程，从而优化生成模型，提高生成内容的视觉质量和对齐程度。此外，该数据集还可以用于开发自动化的评估工具，帮助用户快速评估生成内容的质量和对齐程度，从而提高生成内容的可用性和可靠性。

数据集最近研究