GenEval 2

Name: GenEval 2
Creator: Meta FAIR, 华盛顿大学, 加州大学洛杉矶分校, 艾伦人工智能研究所
Published: 2025-12-19 02:26:56
License: 暂无描述

arXiv2025-12-19 更新2025-12-20 收录

下载链接：

https://github.com/facebookresearch/GenEval2

下载链接

链接失效反馈

官方服务：

资源简介：

GenEval 2是由Meta FAIR等机构联合开发的文本到图像（T2I）模型评估基准，旨在解决现有基准（如GenEval）因模型能力提升而导致的评估漂移问题。该数据集包含800个精心设计的提示，覆盖40种独特物体、18种属性和9种空间关系，并引入组合性评估以增强挑战性。数据来源于COCO等公开数据集及新增概念，通过模板化设计确保结构一致性。其创新性在于结合原子级和提示级评估的Soft-TIFA方法，显著提升了与人类判断的一致性（AUROC达94.5%），适用于测试T2I模型在基础视觉概念组合、空间推理等核心能力上的表现，为模型可控性研究提供重要工具。

GenEval 2 is a text-to-image (T2I) model evaluation benchmark co-developed by Meta FAIR and other institutions, aiming to resolve the evaluation drift issue in existing benchmarks (such as GenEval) caused by the advancement of model capabilities. This dataset includes 800 meticulously designed prompts, covering 40 distinct objects, 18 attributes and 9 spatial relationships, and introduces compositional evaluation to enhance the task challenge. The data is sourced from public datasets such as COCO and newly added concepts, with a templated design to ensure structural consistency. Its innovative contribution lies in the Soft-TIFA method that combines atomic-level and prompt-level evaluations, which significantly improves the consistency with human judgments, with an AUROC score of 94.5%. It is suitable for testing the core capabilities of T2I models such as basic visual concept composition and spatial reasoning, providing an important tool for model controllability research.

提供机构：

Meta FAIR, 华盛顿大学, 加州大学洛杉矶分校, 艾伦人工智能研究所

创建时间：

2025-12-19

原始信息汇总

GenEval 2 数据集概述

数据集基本信息

数据集名称：GenEval 2
核心用途：文本到图像（T2I）生成模型的评估基准
主要特点：改进了对基本视觉概念（物体、属性、关系、计数）的覆盖，并具有比现有基准更高的组合性程度
数据规模：包含800个提示词，这些提示词具有不同程度的组合性

基准结构与数据内容

数据文件：geneval2_data.jsonl
数据格式：每行为一个JSON字典，代表一个提示词的相关信息
关键字段：
- prompt：提示词文本
- atom_count：提示词的组合性（原子性）计数
- vqa_list：与提示词中每个原子概念对应的视觉问答（VQA）问题-答案对列表
- skills：与每个VQA对相关联的技能类别列表
数据示例：提示词“four white bicycles in front of three plastic cows”对应的原子计数为7，VQA列表包含7个问题-答案对，技能列表包含“count”、“attribute”、“object”、“position”等类别。

评估方法

主要评估方法：Soft-TIFA
方法原理：基于视觉问答（VQA）模型，通过查询生成的图像并计算模型对正确答案赋予的概率来为每个问题分配软分数。
得分计算：
- 原子级性能估计（Soft-TIFA AM）：计算每个提示词内软分数的算术平均值。
- 提示词级性能估计（Soft-TIFA GM）：计算每个提示词内软分数的几何平均值。
对比方法：该仓库也提供了VQAScore和TIFA两种其他T2I评估方法的代码。

分析与支持

分析层级：支持提示词级和原子级的详细分析。
分析依据：每个提示词都标注了其原子性以及每个原子对应的技能列表。
分析脚本：soft_tifa_analysis.py，用于基于评估步骤生成的分数进行技能和原子性层面的分析。

使用要求与流程

环境安装：需安装Python环境及torch、transformers==4.57.0、pillow、tqdm、scipy等依赖库。
图像生成：用户需使用任意T2I模型为GenEval 2中的每个提示词生成图像，并创建一个字典，其键为提示词，值为对应生成图像的文件路径。
评估执行：通过evaluation.py脚本，指定基准数据文件、图像路径映射文件、评估方法等参数运行评估。

许可证

本项目采用知识共享署名-非商业性使用 4.0 国际许可协议（CC BY-NC 4.0）进行许可。

引用与贡献

如在研究中使用GenEval2，请考虑引用其工作。
欢迎贡献，具体指南请参见CONTRIBUTING.md文件。

搜集汇总

数据集介绍

构建方式

在文本到图像生成模型评估领域，基准测试的持续有效性面临挑战。GenEval 2的构建采用模板化方法，通过系统化组合视觉基元概念来生成提示。该数据集包含800个提示，覆盖40个独特物体、18种属性、9种空间与动词关系以及6种数量范围。提示结构遵循严格的语法模板，确保每个提示由1到3个物体及其属性、关系和数量组合而成。通过计算提示的原子性（即视觉基元数量）来量化组合复杂度，数据集中提示的原子性从3到10均匀分布，从而实现对不同组合层次的全面评估。这种构建方式不仅扩展了概念覆盖范围，还通过可控的模板设计避免了自然语言生成可能带来的歧义性问题。

特点

GenEval 2的核心特点在于其对组合复杂性的系统化建模与评估能力。数据集通过原子性指标精确量化每个提示的组合程度，使得研究者能够分析模型性能随复杂度变化的规律。该基准测试特别强调对空间关系、及物动词关系和计数能力等薄弱环节的评估，这些技能在当前先进模型中仍存在显著挑战。数据集的另一个重要特征是支持多层次分析：既可在原子级别评估单个视觉基元的生成质量，也可在提示级别评估整体组合的正确性。这种设计使得GenEval 2能够揭示模型在生成简单元素时表现良好，但在组合复杂提示时性能急剧下降的现象，为改进模型组合推理能力提供了明确方向。

使用方法

使用GenEval 2进行评估时，研究者首先需要利用文本到图像模型根据数据集中的提示生成对应图像。评估过程推荐采用配套提出的Soft-TIFA方法，该方法通过模板生成与每个视觉基元对应的问题，并利用视觉问答模型对生成图像进行软评分。Soft-TIFA提供两种聚合方式：算术平均（Soft-TIFA_AM）反映原子级别性能，几何平均（Soft-TIFA_GM）反映提示级别性能，后者对错误基元更为敏感。评估时需注意，尽管某些模型可能使用提示重写技术生成图像，但评估始终基于原始提示进行。数据集支持按技能类别和组合复杂度进行细分分析，研究者可通过这些分析识别模型在特定能力上的缺陷，并为改进方向提供实证依据。

背景与挑战

背景概述

GenEval 2 是由 Meta、华盛顿大学、加州大学洛杉矶分校和艾伦人工智能研究所的研究团队于2025年12月推出的文本到图像生成评估基准。该数据集旨在解决其前身 GenEval 在快速发展的文本到图像模型领域中出现的基准漂移问题。随着模型能力的显著提升，原有评估方法因依赖静态的模型判断器而逐渐偏离人类判断，导致评估结果失真。GenEval 2 通过扩展视觉基元概念的覆盖范围、引入更高层次的组合性，以及设计新型评估方法 Soft-TIFA，为当前先进的文本到图像模型提供了更具挑战性和鲁棒性的评估框架，推动了生成模型评估向更精准、动态对齐的方向发展。

当前挑战

GenEval 2 面临的挑战主要体现在两个方面：在领域问题层面，文本到图像生成评估需应对模型输出分布随时间快速变化导致的基准漂移，即评估方法难以保持与人类判断的一致性，例如 GenEval 的自动评分与人类评分误差高达17.7%。在构建过程中，挑战包括设计能够有效捕捉组合性提示的评估模板，确保对空间关系、及物动词和计数等复杂技能的覆盖，同时开发如 Soft-TIFA 这样的评估方法，以降低对特定视觉问答模型的依赖，增强对分布变化的鲁棒性，避免因模型更新而再次出现评估失效。

常用场景

经典使用场景

在文本到图像生成模型的快速发展背景下，GenEval 2作为一项基准测试，主要用于评估模型在基础视觉概念上的组合能力。该数据集通过模板化设计，涵盖了对象、属性、空间关系和计数等多种技能，并设置了从简单到复杂的组合性层级。研究者利用GenEval 2对前沿模型进行系统性测试，以揭示其在处理多元素组合提示时的表现，例如模型能否准确生成“四辆白色自行车在三头塑料奶牛前方”这样的复杂场景。这种评估不仅关注原子级元素的正确性，更强调整个提示层面的整体对齐，为模型能力的精细诊断提供了标准化的实验平台。

解决学术问题

GenEval 2主要解决了文本到图像评估中的基准漂移问题，即静态评估方法因模型能力进化而逐渐偏离人类判断的学术挑战。通过引入更高覆盖度的视觉概念和组合性设计，该数据集能够更准确地反映当前模型的真实能力，避免因评估过时而导致的误差。其意义在于推动了自动化评估方法的动态更新理念，强调持续审计的重要性，从而确保研究社区能够获得可靠、与时俱进的性能度量标准。这一工作对提升评估的鲁棒性和科学性产生了深远影响，为后续基准设计树立了新的范式。

衍生相关工作

GenEval 2的推出催生了一系列围绕组合性评估和抗漂移方法的研究。基于其设计理念，后续工作如Soft-TIFA评估方法进一步优化了原子级与提示级性能的联合估计，提升了与人类判断的对齐度。同时，该数据集启发了对VQA模型在细粒度关系理解上的改进探索，例如针对动词和空间关系的专项评估模型。此外，相关研究也开始关注如何将GenEval 2的组合性框架迁移至其他多模态任务，如视频生成或跨模态推理，扩展了其在复杂生成场景中的适用性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集