GenEval 2

github2025-12-19 更新2025-12-20 收录

下载链接：

https://github.com/facebookresearch/GenEval2

下载链接

链接失效反馈

官方服务：

资源简介：

GenEval 2是一个文本到图像（T2I）基准测试，改进了对原始视觉概念（对象、属性、关系、计数）的覆盖范围，并比现有基准测试具有更高的组合性。它包含800个具有不同组合程度的提示。

GenEval 2 is a text-to-image (T2I) benchmark that enhances the coverage of primitive visual concepts (objects, attributes, relationships, and counts) and features higher compositionality compared to existing benchmarks. It comprises 800 prompts with varying degrees of compositionality.

创建时间：

2025-12-13

原始信息汇总

GenEval 2 数据集概述

数据集基本信息

数据集名称：GenEval 2
核心定位：一个文本到图像（T2I）评估基准，旨在解决基准漂移问题。
主要特点：
- 相比现有基准，对原始视觉概念（对象、属性、关系、计数）的覆盖范围更广。
- 具有更高的组合性程度。
数据规模：包含 800 个提示词，这些提示词具有不同程度的组合性。

评估方法

核心评估方法：Soft-TIFA
- 一种基于视觉问答（VQA）的评估方法。
- 结合了对视觉原语的判断。
- 与其他评估方法相比，与人类判断更一致，且随时间推移偏离人类对齐的可能性更低。
对比评估方法：同时提供了 VQAScore (Lin et al., 2024) 和 TIFA (Hu et al., 2023) 的评估代码。

数据结构与内容

数据文件：geneval2_data.jsonl
数据格式：每行为一个 JSON 对象，包含以下关键字段：
- prompt：文本提示词。
- atom_count：提示词的组合性（即原子性）计数。
- vqa_list：一个列表，包含针对提示词中每个原子（原语）的 VQA 问答对。
- skills：一个列表，包含与每个 VQA 对相关联的技能类别（如“count”、“attribute”、“object”、“position”）。
数据示例： json { "prompt": "four white bicycles in front of three plastic cows", "atom_count": 7, "vqa_list": [["How many bicycles are in the image?", "four"], ["Are the bicycles white?", "Yes"], ["Are there any bicycles in the image?", "Yes"], ["Are the bicycles in front of the cows?", "Yes"], ["How many cows are in the image?", "three"], ["Are the cows plastic?", "Yes"], ["Are there any cows in the image?", "Yes"]], "skills": ["count", "attribute", "object", "position", "count", "attribute", "object"] }
关于原子性的说明：单词“and”或“a”不计入提示词的组合性（原子性）计数，但“a”仍会在 VQA 列表中进行评估，以应对 T2I 模型生成了超过一个所需对象的情况。

评估与分析能力

评估指标：
- Soft-TIFA AM：计算每个提示词内软分数的算术平均值，用于估计原子级模型性能。
- Soft-TIFA GM：计算每个提示词内软分数的几何平均值，用于估计提示词级模型性能。
分析维度：
- 原子级分析：基于每个原子的技能标注，支持按技能类别进行详细分析（使用 Soft-TIFA AM）。
- 提示词级分析：基于每个提示词的原子性计数，支持按组合性程度进行分析（使用 Soft-TIFA GM）。

使用流程

环境安装：按照提供的 Installation 步骤克隆仓库并安装依赖。
图像生成：使用任意 T2I 模型为 GenEval 2 中的每个提示词生成图像，并创建一个字典，将提示词映射到对应的生成图像文件路径。
运行评估：使用 evaluation.py 脚本，指定基准数据、图像路径映射、评估方法和输出文件，计算得分。
运行分析：使用 soft_tifa_analysis.py 脚本，结合基准数据和上一步生成的得分文件，进行详细分析。

许可信息

本项目采用 Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) 许可。
详情见 LICENSE 文件。

引用与贡献

如在研究中使用 GenEval2，请考虑引用相关工作。
欢迎贡献，请参阅 CONTRIBUTING.md 文件了解指南。

搜集汇总

数据集介绍

构建方式

在文本到图像生成领域，评估基准的构建需兼顾概念的覆盖度与组合性。GenEval 2数据集通过精心设计的800条提示词，系统涵盖了物体、属性、关系和计数等基础视觉概念，并以原子性作为组合复杂度的度量。每条提示均标注了原子数量，并关联了一系列视觉问答对，这些问答对由人工或自动化流程生成，确保每个视觉原子都能被独立验证，从而构建出一个层次分明、结构严谨的评估框架。

使用方法

使用GenEval 2时，研究者需首先利用文本到图像模型根据提示生成对应图像，并建立提示与图像文件的映射关系。随后运行评估脚本，选择Soft-TIFA等方法对生成图像进行自动化评分，获得原子级或提示级的性能估计。数据集附带的分析脚本支持深入探究模型在不同技能和组合复杂度下的表现，从而全面评估生成模型的视觉概念理解与组合能力。

背景与挑战

背景概述

文本到图像生成技术作为人工智能领域的前沿方向，其评估体系的构建一直是研究的关键环节。GenEval 2数据集由Facebook Research于近期推出，旨在应对现有基准测试中存在的评估漂移问题。该数据集聚焦于提升对基本视觉概念（如物体、属性、关系和计数）的覆盖度，并增强提示的组合复杂性，共包含800个具有不同组合层次的文本提示。通过引入Soft-TIFA这一基于视觉问答的评估方法，GenEval 2能够更紧密地贴合人类判断，减少随时间推移而产生的对齐偏差，从而为文本到图像模型的性能评估提供了更为可靠和细致的分析框架。

当前挑战

在文本到图像生成领域，评估模型对复杂组合提示的准确理解与生成能力是一项核心挑战。GenEval 2致力于解决现有基准测试在覆盖度和组合性上的不足，特别是模型在处理多对象、属性和空间关系时可能出现的语义遗漏或错误生成问题。构建过程中的挑战包括如何设计具有高原子性的提示以精确分解视觉概念，以及如何确保评估方法（如Soft-TIFA）能够稳定地量化模型对每个原子概念的生成质量，同时避免因视觉问答模型本身的局限性而引入评估偏差。这些挑战要求数据集在提示标注、评估协议设计上保持高度的严谨性和可扩展性。

常用场景

经典使用场景

在文本到图像生成领域，GenEval 2 数据集作为一项基准测试工具，主要用于评估生成模型在复杂视觉概念组合上的表现。该数据集包含800个具有不同组合程度的提示，覆盖了对象、属性、关系和计数等基本视觉元素，通过Soft-TIFA评估方法，结合视觉问答模型对生成图像进行细粒度分析，从而衡量模型在多层次语义理解上的能力。这一场景典型地应用于模型性能对比和优化研究中，为研究者提供了标准化的评估框架。

解决学术问题

GenEval 2 数据集旨在解决文本到图像评估中的基准漂移问题，即传统评估方法随时间推移与人类判断对齐度下降的挑战。通过引入Soft-TIFA方法，该数据集能够更稳定地反映模型在视觉原语组合上的真实性能，从而推动评估指标的可靠性和一致性。其意义在于为学术界提供了更精准的模型比较基础，促进了生成模型在复杂语义场景下的技术进步，对提升评估方法的科学性和可重复性产生了深远影响。

实际应用

在实际应用中，GenEval 2 数据集被广泛用于文本到图像生成系统的开发与测试，例如在艺术创作、广告设计和教育工具等领域。通过该数据集的评估，开发者可以识别模型在特定视觉技能上的不足，如对象计数或空间关系处理，进而优化模型架构或训练策略。这种应用不仅加速了生成模型的商业化进程，还确保了生成内容在多样化和准确性上满足实际需求，推动了人工智能技术在创意产业中的落地。

数据集最近研究