UniGenBench++

Name: UniGenBench++
Creator: 复旦大学, 上海创新研究院, 腾讯混元, 上海人工智能实验室, 上海交通大学
Published: 2025-10-21 22:56:46
License: 暂无描述

arXiv2025-10-21 更新2025-11-05 收录

下载链接：

https://codegoat24.github.io/UniGenBench/

下载链接

链接失效反馈

官方服务：

资源简介：

UniGenBench++是一个统一的语义评估基准，用于评估文本到图像生成。它包含600个提示，按层次结构组织，涵盖5个主要主题和20个子主题，旨在确保全面性和效率。该数据集提供了10个主要维度和27个子维度的全面评估，每个提示针对多个特定的测试点。此外，每个提示都提供了英语和中文版本，以及短版和长版形式，以进行系统评估。

UniGenBench++ is a unified semantic evaluation benchmark for text-to-image generation. It includes 600 hierarchically organized prompts spanning 5 main topics and 20 sub-topics, designed to ensure both comprehensiveness and evaluation efficiency. This dataset enables comprehensive assessment across 10 primary dimensions and 27 sub-dimensions, with each prompt targeting multiple specific test points. Furthermore, both English and Chinese versions of each prompt are provided, alongside short and long-form variants to support systematic evaluation.

提供机构：

复旦大学, 上海创新研究院, 腾讯混元, 上海人工智能实验室, 上海交通大学

创建时间：

2025-10-21

搜集汇总

数据集介绍

构建方式

在文本到图像生成领域，构建高质量的语义评估基准对模型性能的精细化诊断至关重要。UniGenBench++采用分层结构设计，通过多模态大语言模型生成600个提示，涵盖5个主要主题和20个子主题，确保覆盖真实世界场景。每个提示通过随机采样主题和主体类别，并选择1至5个细粒度测试点，生成双语短提示后扩展为长提示，同时对齐测试点描述以保持语义一致性，从而构建出高效且全面的评估框架。

使用方法

利用该数据集进行模型评估时，可采用基于多模态大语言模型的流线型管道。对于每个提示及其生成图像，评估模型依次分析预设测试点的满足情况，输出二进制决策及自然语言解释。结果按子维度和主要维度分层聚合，支持多粒度性能分析。为促进社区使用，还提供了离线评估模型，无需依赖外部API即可执行可靠评估，确保评估过程的高效性和可重复性。

背景与挑战

背景概述

UniGenBench++由复旦大学、腾讯混元、上海人工智能实验室等机构于2025年联合发布，旨在构建统一的文本到图像生成语义评估基准。该数据集针对现有基准在提示场景多样性和多语言支持方面的不足，系统性地设计了涵盖5大主题、20个子主题的600个提示，并扩展至中英文双语及长短文本形式。其核心研究问题聚焦于细粒度语义一致性评估，通过10个主要维度和27个子维度全面检验生成模型对风格、逻辑推理、语法理解等复杂语义的遵循能力，推动了生成模型在真实场景下的可靠性研究。

当前挑战

该数据集主要面临双重挑战：在领域问题层面，需解决文本到图像生成中语义一致性评估的粒度不足问题，特别是对逻辑推理、动态行为描述等复杂语义的量化评估；在构建过程中，需平衡提示的多样性与评估效率，通过多模态大语言模型生成并对齐双语长短文本的测试点，同时确保离线和在线评估流程的可靠性与一致性。

常用场景

经典使用场景

在文本到图像生成领域，UniGenBench++作为统一语义评估基准，其经典使用场景聚焦于系统化评测各类T2I模型在多语言、多长度提示下的语义一致性表现。该基准通过涵盖创意发散、艺术创作、插画设计、影视叙事及专业设计等五大现实场景主题，结合600条中英文长短提示，构建了高度仿真的评估环境。研究人员可借助其层级化测试点设计，精准探测模型在风格一致性、动态行为描绘、逻辑推理等10个主维度和27个子维度上的能力边界，为模型优化提供细粒度诊断依据。

解决学术问题

该基准有效解决了传统评估体系存在的两大核心问题：其一是突破了原有基准在评估维度上的粗粒度局限，通过建立覆盖语法理解、接触交互、三维空间布局等27个子维度的诊断体系，揭示了模型在复合概念组合、否定语义理解等深层语义任务中的薄弱环节；其二是弥补了多语言支持与场景多样性的缺失，通过中英文双语平行语料与长短提示变体，为研究跨语言泛化能力与提示鲁棒性提供了标准化实验框架，推动了文本到图像生成技术向实用化迈进。

实际应用

在实际应用层面，UniGenBench++为工业级文本到图像系统的质量管控提供了关键支撑。广告设计领域可依据其风格一致性评估模块优化品牌视觉输出，游戏开发行业能通过动作交互测试点提升角色动态表现的真实性。教育科技企业可借助其多语言评估能力开发跨文化教学素材生成工具，而电子商务平台则利用其属性准确性维度确保商品展示图像与文本描述的高度匹配。该基准的离线评估模型进一步降低了企业部署成本，使实时质量监测成为可能。

数据集最近研究