EvalMuse-40K

github2025-03-12 更新2025-03-06 收录

下载链接：

https://github.com/2019211753/NTIRE

下载链接

链接失效反馈

官方服务：

资源简介：

EvalMuse-40K是一个可靠且细粒度的基准数据集，旨在评估文本到图像（T2I）生成模型的性能。它包含40,000个图像-文本对，并带有用于图像-文本对齐相关任务的全面人工注释。基于此数据集，我们提出了两种自动评估T2I对齐的方法：FGA-BLIP2和PN-VQA。

EvalMuse-40K is a reliable and fine-grained benchmark dataset designed to evaluate the performance of text-to-image (T2I) generation models. It contains 40,000 image-text pairs with comprehensive manual annotations for image-text alignment-related tasks. Based on this dataset, we propose two automatic evaluation methods for T2I alignment: FGA-BLIP2 and PN-VQA.

创建时间：

2025-02-26

原始信息汇总

EvalMuse-40K 数据集概述

数据集简介

EvalMuse-40K 是一个可靠且细粒度的基准数据集，旨在评估文本到图像生成模型（T2I）的性能。该数据集包含 40,000 个图像-文本对，并伴有全面的真人标注，用于图像-文本对齐相关的任务。

关键特性

大规模 T2I 评估数据集：包含 40,000 个图像-文本对，超过 1 百万的细粒度真人标注。
多样性和可靠性：采用平衡的提示采样和数据重标注策略，确保数据的多样性和可靠性。
细粒度评估：在细粒度标注期间对元素进行分类，允许在粒度级别评估特定的技能。
新的评估方法：引入了 FGA-BLIP2 和 PN-VQA 方法，用于端到端的细粒度评估和零样本细粒度评估。
排行榜：维护一个每周更新的 T2I 模型排行榜，展示 T2I 模型的最新进展。

数据统计

对齐分数分布：对齐分数广泛分布，为评估现有模型在图像-文本对齐度方面的连贯性提供了丰富的样本。
人类偏好的差异：75% 的对齐分数差异小于 1，显示出高标注一致性。对于较大的差异，通过重标注来减少偏差。
细粒度标注的数量和分数：大多数类别的对齐分数围绕 50% 分布，确保了正负样本的平衡。发现 AIGC 模型在计数、空间关系和活动方面的连贯性较弱。

使用指南

克隆仓库： bash git clone https://github.com/DYEvaLab/EvalMuse cd EvalMuse
安装依赖： bash pip install -r requirements.txt
下载数据集并预处理： bash

从 Huggingface 下载数据集

sh scripts/download.sh

平均标注分数并计算不同提示对应的图像-文本对的对齐分数方差

python3 process/process_train.py

将提示中的元素拆分与提示中的特定索引对应

python3 process/element2mask.py
运行训练脚本： bash sh scripts/train.sh
评估模型：你可以从 Huggingface 或 Baidu Cloud 下载预训练的 FGA-BLIP2 模型权重。 bash sh scripts/eval.sh

提交指南

EvalMuse-40K 可以用于评估以下三个任务：

评估整体图像-文本对齐度分数与人类偏好的相关性。
评估细粒度图像-文本对齐度分数与人类偏好的相关性。
评估 T2I 模型在图像-文本对齐任务上的性能。

贡献指南

欢迎对 EvalMuse-40K 数据集做出贡献。如果有想法或发现错误，请打开一个 issue 或提交一个 pull request。

引用和致谢

如果发现 EvalMuse-40K 对你的研究有所帮助，请在你的论文中引用以下论文： bibtex @misc{han2024evalmuse40kreliablefinegrainedbenchmark, title={EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation}, author={Shuhao Han and Haotian Fan and Jiachen Fu and Liang Li and Tao Li and Junhui Cui and Yunqiu Wang and Yang Tai and Jingwei Sun and Chunle Guo and Chongyi Li}, year={2024}, eprint={2412.18150}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2412.18150}, }

搜集汇总

数据集介绍

构建方式

EvalMuse-40K数据集的构建采用了综合人类标注的策略，包含40,000个图像-文本对，并提供了超过100万细粒度的人类标注。这些标注不仅覆盖了图像和文本之间的对齐任务，还通过平衡提示采样和数据重标注等策略，确保了数据集的多样性和可靠性。

特点

该数据集的特点在于其大规模、多样性和细粒度标注。它不仅提供了丰富的样本以评估现有模型在图像-文本对齐任务上的一致性，还引入了FGA-BLIP2和PN-VQA两种新的评估方法，并维护了一个每周更新的T2I模型排名列表，展示了T2I模型的发展进程。

使用方法

使用EvalMuse-40K数据集，用户首先需要从Huggingface下载数据集，安装必要的依赖，然后下载并预处理数据。之后，用户可以运行训练脚本进行模型训练，并使用预训练的FGA-BLIP2模型权重进行模型评估。对于评估模型与人类偏好的一致性，用户可以将结果提交至指定邮箱以获取与人类偏好的相关性。

背景与挑战

背景概述

EvalMuse-40K是一个可靠且细粒度的基准数据集，旨在评估文本到图像生成模型的表现。该数据集包含了40000个图像-文本对，并伴有全面的人类注释，用于图像-文本对齐相关的任务。EvalMuse-40K的创建时间为2024年，主要研究人员来自EvaLab，核心研究问题是提高文本到图像生成模型评估的一致性和准确性，对相关领域产生了重要影响。

当前挑战

在构建EvalMuse-40K数据集时，研究者面临了多个挑战。首先，如何确保数据集的多样性和可靠性是一个关键问题，为此研究者采用了平衡的提示采样和数据重注释策略。其次，细粒度评估的挑战在于如何将元素分类与特定的提示索引对应，并评估特定技能在细粒度级别上的表现。此外，构建过程中还遇到了如何自动评估图像-文本对齐的新方法挑战，以及如何维护一个更新的模型排行榜以展示文本到图像生成模型的最新进展。

常用场景

经典使用场景

EvalMuse-40K数据集作为评估文本到图像生成模型性能的可靠和精细基准，其经典使用场景在于为研究人员提供了一个全面的人类注释数据集，用于评估和比较不同模型在图像文本对齐任务上的表现。该数据集包含了40,000个图像文本对，超过100万细粒度的人类注释，为细粒度评估提供了丰富的样本。

衍生相关工作

基于EvalMuse-40K数据集，已经衍生出了一系列相关的工作，包括提出了新的评估方法FGA-BLIP2和PN-VQA，这些方法在细粒度评估和端到端评估中展现了优异的性能，为文本到图像生成模型的评估提供了新的视角和技术路径。

数据集最近研究