EvalMuse-40K
收藏EvalMuse-40K 数据集概述
数据集简介
EvalMuse-40K 是一个可靠且细粒度的基准数据集,旨在评估文本到图像生成模型(T2I)的性能。该数据集包含 40,000 个图像-文本对,并伴有全面的真人标注,用于图像-文本对齐相关的任务。
关键特性
- 大规模 T2I 评估数据集:包含 40,000 个图像-文本对,超过 1 百万的细粒度真人标注。
- 多样性和可靠性:采用平衡的提示采样和数据重标注策略,确保数据的多样性和可靠性。
- 细粒度评估:在细粒度标注期间对元素进行分类,允许在粒度级别评估特定的技能。
- 新的评估方法:引入了 FGA-BLIP2 和 PN-VQA 方法,用于端到端的细粒度评估和零样本细粒度评估。
- 排行榜:维护一个每周更新的 T2I 模型排行榜,展示 T2I 模型的最新进展。
数据统计
- 对齐分数分布:对齐分数广泛分布,为评估现有模型在图像-文本对齐度方面的连贯性提供了丰富的样本。
- 人类偏好的差异:75% 的对齐分数差异小于 1,显示出高标注一致性。对于较大的差异,通过重标注来减少偏差。
- 细粒度标注的数量和分数:大多数类别的对齐分数围绕 50% 分布,确保了正负样本的平衡。发现 AIGC 模型在计数、空间关系和活动方面的连贯性较弱。
使用指南
-
克隆仓库: bash git clone https://github.com/DYEvaLab/EvalMuse cd EvalMuse
-
安装依赖: bash pip install -r requirements.txt
-
下载数据集并预处理: bash
从 Huggingface 下载数据集
sh scripts/download.sh
平均标注分数并计算不同提示对应的图像-文本对的对齐分数方差
python3 process/process_train.py
将提示中的元素拆分与提示中的特定索引对应
python3 process/element2mask.py
-
运行训练脚本: bash sh scripts/train.sh
-
评估模型: 你可以从 Huggingface 或 Baidu Cloud 下载预训练的 FGA-BLIP2 模型权重。 bash sh scripts/eval.sh
提交指南
EvalMuse-40K 可以用于评估以下三个任务:
- 评估整体图像-文本对齐度分数与人类偏好的相关性。
- 评估细粒度图像-文本对齐度分数与人类偏好的相关性。
- 评估 T2I 模型在图像-文本对齐任务上的性能。
贡献指南
欢迎对 EvalMuse-40K 数据集做出贡献。如果有想法或发现错误,请打开一个 issue 或提交一个 pull request。
引用和致谢
如果发现 EvalMuse-40K 对你的研究有所帮助,请在你的论文中引用以下论文: bibtex @misc{han2024evalmuse40kreliablefinegrainedbenchmark, title={EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation}, author={Shuhao Han and Haotian Fan and Jiachen Fu and Liang Li and Tao Li and Junhui Cui and Yunqiu Wang and Yang Tai and Jingwei Sun and Chunle Guo and Chongyi Li}, year={2024}, eprint={2412.18150}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2412.18150}, }




