LongBench-T2I

github2025-06-02 更新2025-06-03 收录

下载链接：

https://github.com/yczhou001/LongBench-T2I

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于基于复杂指令的图像生成的全面基准和代理框架数据集。

A comprehensive benchmark and agent framework dataset for complex instruction-based image generation.

创建时间：

2025-05-30

原始信息汇总

LongBench-T2I 数据集概述

基本信息

论文标题: Draw ALL Your Imagine: A Holistic Benchmark and Agent Framework for Complex Instruction-based Image Generation
论文链接: https://arxiv.org/abs/2505.24787
发布日期: 2025年5月30日
数据集发布日期: 2025年5月31日
许可证: MIT License

数据集内容

数据文件: data/instruction.jsonl（包含输入指令和标签）
数据结构: JSONL格式，每条记录包含指令和对应的标签信息

项目结构

data/: 存放数据集文件
utils/: 包含工具模块
- evaluator.py: 评估接口（支持Gemini/InternVL）
- prompt.py: 提示模板
- utils.py: 通用辅助函数
evaluate.py: 最终输出评估脚本

评估方法

评估脚本: evaluate.py
评估参数:
- --method: 图像生成方法名称
- --eval_folder: 评估结果保存目录
- --object_file: 包含对象指令标签的输入文件
- --evaluator: 评估模型选择（Gemini/InternVL）
- --Gemni_API_Key: Gemini模型的API密钥

评估结果格式

json { "idx": "...", "image": ".../generated_image_....jpg", "objects": [ { "category_name": "...", "description": "...", "score": ..., "evaluation": "..." } ], "average_score": ... }

案例研究

包含两个复杂指令生成图像的对比案例，展示GPT-4o和Plan2gen方法的生成结果差异

引用方式

bibtex @misc{zhou2025drawimagineholisticbenchmark, title={Draw ALL Your Imagine: A Holistic Benchmark and Agent Framework for Complex Instruction-based Image Generation}, author={Yucheng Zhou and Jiahao Yuan and Qianning Wang}, year={2025}, eprint={2505.24787}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.24787}, }

搜集汇总

数据集介绍

构建方式

在复杂指令驱动的图像生成领域，LongBench-T2I数据集通过精心设计的标注流程构建而成。研究团队采用多阶段标注策略，首先收集涵盖多样化场景的文本指令，随后通过专业标注员对指令中的视觉元素进行细粒度分解，最终形成包含对象类别、空间关系和属性描述的结构化标注。数据集构建过程中特别注重指令的复杂性和创造性，确保每项指令都包含多层次视觉要素和非常规定义，为评估模型的综合生成能力奠定基础。

特点

该数据集最显著的特点在于其指令的复杂性和多样性。每条指令都包含丰富的视觉元素描述，涉及非常规物理现象、超现实场景以及精细的对象交互关系。数据集特别强调对时间动态、空间悖论和材质转换等高级视觉概念的刻画，为评估模型处理复杂语义的能力提供了理想测试平台。此外，数据集配备专业评估框架，支持通过Gemini等先进视觉语言模型进行自动化质量评估。

使用方法

使用该数据集时，研究者可通过提供的评估脚本对生成图像进行系统化评测。典型流程包括：配置生成方法参数、指定评估模型类型、输入包含标注信息的JSONL文件。评估系统会输出包含每张图像详细评分、对象级评价和整体统计分析的标准化报告。为获得最佳效果，建议结合案例研究中的对比分析方法，重点关注模型在复杂场景理解、非常规元素生成和整体构图协调性等方面的表现。

背景与挑战

背景概述

LongBench-T2I数据集由Yucheng Zhou、Jiahao Yuan和Qianning Wang等研究人员于2025年提出，旨在解决复杂指令引导图像生成领域的评估难题。该数据集通过构建包含多模态语义理解和长文本指令解析的基准测试，为生成模型在复杂场景下的表现提供了系统化评估框架。其核心研究问题聚焦于如何准确量化生成图像与复杂文本描述的语义一致性，填补了传统图像生成评估仅关注简单提示词的局限性。该数据集的发布推动了生成式人工智能在细粒度视觉内容创作领域的发展，为后续研究提供了重要的基准参照。

当前挑战

在领域问题层面，LongBench-T2I需要解决复杂文本描述中隐含的多层次视觉语义解析挑战，包括时序动作理解、抽象概念可视化以及跨模态细粒度对齐等难题。数据构建过程中，研究团队面临标注一致性与生成多样性的平衡问题，需要设计精确的评估指标来量化生成图像对长文本指令中隐含语义要素的覆盖度。此外，动态场景描述中的时空关系建模、超现实主义元素的视觉呈现等特殊需求，都对标注规范和评估体系提出了更高要求。

常用场景

经典使用场景

在计算机视觉与生成式人工智能领域，LongBench-T2I数据集为复杂指令驱动的图像生成任务提供了标准化评估基准。其典型应用场景包括测试多模态大模型对长文本指令的语义解析能力，以及评估生成图像在物体属性、空间关系和超现实元素等方面的忠实度。案例研究表明，该数据集能有效验证模型对'反重力蒸汽'或'半透明陶瓷碗'等复杂概念的视觉化表现力。

衍生相关工作

基于该数据集衍生的Plan2gen框架开创了分阶段生成范式，后续研究扩展出动态注意力机制和语义一致性约束模块。其评估体系催生了InternVL3-78B等视觉语言模型的迭代优化，相关技术已被应用于开源项目如Stable Diffusion的指令适配器开发，形成新的研究分支。

数据集最近研究