five

UniGenBench

收藏
github2025-08-29 更新2025-08-30 收录
下载链接:
https://github.com/CodeGoat24/UniGenBench
下载链接
链接失效反馈
官方服务:
资源简介:
UniGenBench是一个统一且多功能的图像生成基准测试,集成了多样化的提示主题和全面的细粒度评估标准。它覆盖10个主要维度和27个子维度,包含5个主要主题和20个子主题,提供英文和中文双语支持,仅需600个提示即可实现全面评估

UniGenBench is a unified and versatile image generation benchmark that integrates diverse prompt themes and comprehensive fine-grained evaluation criteria. It covers 10 primary dimensions and 27 sub-dimensions, includes 5 core topics and 20 sub-topics, supports both English and Chinese languages, and only requires 600 prompts to enable comprehensive evaluation.
创建时间:
2025-08-28
原始信息汇总

UniGenBench 数据集概述

数据集简介

UniGenBench 是一个统一且多功能的图像生成基准测试,集成了多样化的提示主题与一套全面的细粒度评估标准。

核心特点

  • 全面且细粒度的评估:涵盖 10 个主要维度和 27 个子维度,支持对多样化模型能力进行系统和细粒度的评估。
  • 丰富的提示主题覆盖:组织为 5 个主要主题和 20 个子主题,全面覆盖现实和想象生成场景。
  • 高效且全面:仅需 600 个提示,每个提示针对 1–5 个特定测试点,确保覆盖范围与效率。
  • 可靠的多模态大模型评估:每个提示的测试点均附带详细描述,解释测试点如何在提示中体现,辅助多模态大模型进行精确评估。
  • 双语支持:提供英文和中文测试提示,以及两种语言的评估流程,支持公平和广泛的跨语言基准测试。

提示结构

每个提示以 .csv 文件中的一行记录,结合结构化注释进行评估。

  • index:索引
  • prompt:待测试的完整英文提示
  • sub_dims:JSON 编码字段,组织丰富的元数据,包括:
    • 主要/次要类别 – 提示主题(例如,创意发散 → 想象思维)
    • 主体 – 提示中涉及的主要实体(例如,动物)
    • 句子结构 – 提示的语言形式(例如,描述性)
    • 测试点 – 待评估的关键方面(例如,风格、世界知识、属性 - 数量)
    • 测试点描述 – 从提示中提取的评估线索(例如,古典水墨画、埃及金字塔、两只熊猫)

数据集文件

  • 英文测试集data/test_prompts_en.csv
  • 中文测试集data/test_prompts_zh.csv
  • 训练集train_prompt.txt

评估方法

使用 Gemini2.5-pro 评估

  • 支持英文和中文评估脚本,生成详细结果文件并输出维度分数。
  • 结果保存在 ./results 目录中。

使用 Qwen2.5-VL-72b 评估

  • 需部署 vLLM 服务器,支持英文和中文评估脚本。
  • 结果同样保存在 ./results 目录中,并可重新计算分数。

引用

bibtex @article{Pref-GRPO&UniGenBench, title={Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning}, author={Wang, Yibin and Li, Zhimin and Zang, Yuhang and Zhou, Yujie and Bu, Jiazi and Wang, Chunyu and Lu, Qinglin, and Jin, Cheng and Wang, Jiaqi}, journal={arXiv preprint arXiv:2508.20751}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在文本到图像生成领域的快速发展背景下,UniGenBench的构建采用了系统化的标注框架。该数据集通过精心设计的提示词集合,覆盖了五个主要主题和二十个子主题,每个提示词均以CSV格式记录,并附带结构化的元数据标注。构建过程中,团队确保了每个提示词针对一至五个特定测试点,这些测试点涉及风格、世界知识、属性等多个维度,从而实现了对生成模型能力的细粒度评估。
使用方法
使用UniGenBench进行评估时,研究人员首先生成图像,通过提供的多节点推理脚本对每个提示词生成四张图像。随后,利用Gemini2.5-pro或Qwen2.5-VL-72b等评估工具,根据提示词的测试点进行自动化评分。评估过程输出详细的分数结果和CSV格式的报告,用户可通过计算脚本进一步分析模型在各维度的表现,从而实现全面的性能对比和优化。
背景与挑战
背景概述
文本到图像生成作为人工智能领域的前沿研究方向,近年来受到学术界与工业界的广泛关注。UniGenBench由腾讯混元团队与UnifiedReward团队于2025年联合推出,旨在构建一个统一且全面的评估基准,系统性地解决多维度生成质量评估的难题。该数据集通过整合5大主题与20个子主题的提示词体系,覆盖从写实到想象的多场景生成需求,其精细化的评估框架包含10个主维度和27个子维度,为生成模型的性能评估提供了科学依据,显著推动了跨语言文本到图像生成技术的研究进程。
当前挑战
文本到图像生成领域长期面临评估标准不统一、覆盖维度有限的问题,传统基准往往忽视文化语境与语言多样性对生成质量的影响。UniGenBench在构建过程中需克服多维度标注的一致性挑战,确保600条提示词能精准对应1-5个特定测试点,同时维持中英文双语评估的公平性与可复现性。此外,设计既能涵盖广泛主题又保持评估效率的提示词体系,以及适配多模态大语言模型的精细化评估描述,均是数据集构建中的核心难点。
常用场景
经典使用场景
在文本到图像生成领域,UniGenBench作为统一评估基准,其经典使用场景体现在对多模态生成模型进行系统性能力测评。该数据集通过精心设计的600个提示词,覆盖现实与想象两大生成范式,每个提示词均针对1-5个特定测试点,使研究人员能够高效评估模型在风格一致性、属性准确性、世界知识等维度的表现。其双语言支持特性进一步拓展了跨语言生成能力的评估边界,为模型优化提供精准的参照系。
解决学术问题
UniGenBench有效解决了文本到图像生成领域缺乏标准化评估体系的学术困境。通过建立包含10个主维度与27个子维度的细粒度评价框架,该数据集突破了传统评估中单一指标局限,能够系统性地量化模型在创意发散、逻辑连贯性、文化适配性等多方面的能力。其结构化标注体系为生成质量的可解释性分析提供基础,显著提升了学术研究中对生成模型性能评估的科学性与可比性。
实际应用
在实际应用层面,UniGenBench为工业级文本到图像生成系统的质量管控提供了标准化解决方案。设计行业可利用该基准测试创意生成的一致性,教育领域能评估历史文化元素的准确呈现,商业应用则可检验多语言场景下的本地化适配能力。其高效评估流程支持快速迭代开发,而双语言评测管道特别适用于全球化产品的质量验证,为实际部署提供可靠的质量保障机制。
数据集最近研究
最新研究方向
在文本到图像生成领域,UniGenBench作为统一评估基准,正推动多维度生成能力的精细化测评。该数据集整合了5大主题20个子主题的提示词体系,通过10个主维度27个子维度的评估框架,系统覆盖写实与创意生成场景。其双语言支持特性促进了跨语言生成模型的公平比较,而高效提示设计仅需600条提示即可全面评估模型性能。当前研究聚焦于结合多模态大语言模型进行自动化评估,利用Gemini 2.5-pro和Qwen2.5-VL-72b等先进模型实现细粒度质量分析,显著提升了生成模型在属性控制、风格一致性和知识准确性等方面的优化方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作