UniGenBench

github2025-08-29 更新2025-08-30 收录

下载链接：

https://github.com/CodeGoat24/UniGenBench

下载链接

链接失效反馈

官方服务：

资源简介：

UniGenBench是一个统一且多功能的图像生成基准测试，集成了多样化的提示主题和全面的细粒度评估标准。它覆盖10个主要维度和27个子维度，包含5个主要主题和20个子主题，提供英文和中文双语支持，仅需600个提示即可实现全面评估

UniGenBench is a unified and versatile image generation benchmark that integrates diverse prompt themes and comprehensive fine-grained evaluation criteria. It covers 10 primary dimensions and 27 sub-dimensions, includes 5 core topics and 20 sub-topics, supports both English and Chinese languages, and only requires 600 prompts to enable comprehensive evaluation.

创建时间：

2025-08-28

原始信息汇总

UniGenBench 数据集概述

数据集简介

UniGenBench 是一个统一且多功能的图像生成基准测试，集成了多样化的提示主题与一套全面的细粒度评估标准。

核心特点

全面且细粒度的评估：涵盖 10 个主要维度和 27 个子维度，支持对多样化模型能力进行系统和细粒度的评估。
丰富的提示主题覆盖：组织为 5 个主要主题和 20 个子主题，全面覆盖现实和想象生成场景。
高效且全面：仅需 600 个提示，每个提示针对 1–5 个特定测试点，确保覆盖范围与效率。
可靠的多模态大模型评估：每个提示的测试点均附带详细描述，解释测试点如何在提示中体现，辅助多模态大模型进行精确评估。
双语支持：提供英文和中文测试提示，以及两种语言的评估流程，支持公平和广泛的跨语言基准测试。

提示结构

每个提示以 .csv 文件中的一行记录，结合结构化注释进行评估。

index：索引
prompt：待测试的完整英文提示
sub_dims：JSON 编码字段，组织丰富的元数据，包括：
- 主要/次要类别 – 提示主题（例如，创意发散 → 想象思维）
- 主体 – 提示中涉及的主要实体（例如，动物）
- 句子结构 – 提示的语言形式（例如，描述性）
- 测试点 – 待评估的关键方面（例如，风格、世界知识、属性 - 数量）
- 测试点描述 – 从提示中提取的评估线索（例如，古典水墨画、埃及金字塔、两只熊猫）

数据集文件

英文测试集：data/test_prompts_en.csv
中文测试集：data/test_prompts_zh.csv
训练集：train_prompt.txt

评估方法

使用 Gemini2.5-pro 评估

支持英文和中文评估脚本，生成详细结果文件并输出维度分数。
结果保存在 ./results 目录中。

使用 Qwen2.5-VL-72b 评估

需部署 vLLM 服务器，支持英文和中文评估脚本。
结果同样保存在 ./results 目录中，并可重新计算分数。

引用

bibtex @article{Pref-GRPO&UniGenBench, title={Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning}, author={Wang, Yibin and Li, Zhimin and Zang, Yuhang and Zhou, Yujie and Bu, Jiazi and Wang, Chunyu and Lu, Qinglin, and Jin, Cheng and Wang, Jiaqi}, journal={arXiv preprint arXiv:2508.20751}, year={2025} }

搜集汇总

数据集介绍

构建方式

在文本到图像生成领域的快速发展背景下，UniGenBench的构建采用了系统化的标注框架。该数据集通过精心设计的提示词集合，覆盖了五个主要主题和二十个子主题，每个提示词均以CSV格式记录，并附带结构化的元数据标注。构建过程中，团队确保了每个提示词针对一至五个特定测试点，这些测试点涉及风格、世界知识、属性等多个维度，从而实现了对生成模型能力的细粒度评估。

使用方法

使用UniGenBench进行评估时，研究人员首先生成图像，通过提供的多节点推理脚本对每个提示词生成四张图像。随后，利用Gemini2.5-pro或Qwen2.5-VL-72b等评估工具，根据提示词的测试点进行自动化评分。评估过程输出详细的分数结果和CSV格式的报告，用户可通过计算脚本进一步分析模型在各维度的表现，从而实现全面的性能对比和优化。

背景与挑战

背景概述

文本到图像生成作为人工智能领域的前沿研究方向，近年来受到学术界与工业界的广泛关注。UniGenBench由腾讯混元团队与UnifiedReward团队于2025年联合推出，旨在构建一个统一且全面的评估基准，系统性地解决多维度生成质量评估的难题。该数据集通过整合5大主题与20个子主题的提示词体系，覆盖从写实到想象的多场景生成需求，其精细化的评估框架包含10个主维度和27个子维度，为生成模型的性能评估提供了科学依据，显著推动了跨语言文本到图像生成技术的研究进程。

当前挑战

文本到图像生成领域长期面临评估标准不统一、覆盖维度有限的问题，传统基准往往忽视文化语境与语言多样性对生成质量的影响。UniGenBench在构建过程中需克服多维度标注的一致性挑战，确保600条提示词能精准对应1-5个特定测试点，同时维持中英文双语评估的公平性与可复现性。此外，设计既能涵盖广泛主题又保持评估效率的提示词体系，以及适配多模态大语言模型的精细化评估描述，均是数据集构建中的核心难点。

常用场景

经典使用场景

在文本到图像生成领域，UniGenBench作为统一评估基准，其经典使用场景体现在对多模态生成模型进行系统性能力测评。该数据集通过精心设计的600个提示词，覆盖现实与想象两大生成范式，每个提示词均针对1-5个特定测试点，使研究人员能够高效评估模型在风格一致性、属性准确性、世界知识等维度的表现。其双语言支持特性进一步拓展了跨语言生成能力的评估边界，为模型优化提供精准的参照系。

解决学术问题

UniGenBench有效解决了文本到图像生成领域缺乏标准化评估体系的学术困境。通过建立包含10个主维度与27个子维度的细粒度评价框架，该数据集突破了传统评估中单一指标局限，能够系统性地量化模型在创意发散、逻辑连贯性、文化适配性等多方面的能力。其结构化标注体系为生成质量的可解释性分析提供基础，显著提升了学术研究中对生成模型性能评估的科学性与可比性。

实际应用

在实际应用层面，UniGenBench为工业级文本到图像生成系统的质量管控提供了标准化解决方案。设计行业可利用该基准测试创意生成的一致性，教育领域能评估历史文化元素的准确呈现，商业应用则可检验多语言场景下的本地化适配能力。其高效评估流程支持快速迭代开发，而双语言评测管道特别适用于全球化产品的质量验证，为实际部署提供可靠的质量保障机制。

数据集最近研究