five

LongBench-T2I

收藏
arXiv2025-05-31 更新2025-06-03 收录
下载链接:
https://github.com/yczhou001/LongBench-T2I
下载链接
链接失效反馈
官方服务:
资源简介:
LongBench-T2I是一个全面的数据集,旨在评估基于复杂指令的图像生成模型。该数据集包含500个精心设计的指令,覆盖了9个不同的视觉评估维度,能够全面评估模型遵循复杂指令的能力。数据集的创建过程采用多阶段流水线,包括草图描述生成、复杂场景指令生成、元素提取和自动审查以及人工审查。LongBench-T2I旨在解决现有文本到图像生成模型在处理复杂指令时表现不佳的问题,推动该领域的发展。

LongBench-T2I is a comprehensive dataset designed for evaluating complex instruction-based image generation models. It consists of 500 meticulously crafted instructions covering 9 distinct visual evaluation dimensions, which enables a holistic assessment of models' capacity to follow complex instructions. The dataset is constructed via a multi-stage pipeline, including sketch description generation, complex scene instruction generation, element extraction, automatic review and manual review. LongBench-T2I aims to address the subpar performance of existing text-to-image generation models when handling complex instructions, and promote the advancement of this research field.
提供机构:
University of Macau, China; East China Normal University, China; Auckland University of Technology, New Zealand
创建时间:
2025-05-31
原始信息汇总

LongBench-T2I 数据集概述

数据集基本信息

  • 名称: LongBench-T2I
  • 论文标题: Draw ALL Your Imagine: A Holistic Benchmark and Agent Framework for Complex Instruction-based Image Generation
  • 论文链接: https://arxiv.org/abs/2505.24787
  • 发布日期: 2025年5月30日

数据集内容

  • 数据文件: data/instruction.jsonl(包含输入指令和标签)
  • 数据类型: 复杂指令驱动的图像生成任务

项目结构

bash . ├── data/ │ └── instruction.jsonl # 输入指令 + 标签 ├── utils/ # 工具模块 │ ├── evaluator.py # 评估接口 │ ├── prompt.py # 提示模板 │ ├── utils.py # 辅助函数 ├── evaluate.py # 最终输出评估脚本

评估方法

  • 评估脚本: evaluate.py
  • 评估指标:
    • 每张图像的分数
    • 评论
    • 总体统计摘要
  • 评估模型选择:
    • gemini-2.0-flash
    • OpenGVLab/InternVL3-78B

案例研究

  • 比较方法: GPT-4o vs Plan2gen (Ours)
  • 案例特点: 复杂、富有想象力的图像生成指令

引用信息

bibtex @misc{zhou2025drawimagineholisticbenchmark, title={Draw ALL Your Imagine: A Holistic Benchmark and Agent Framework for Complex Instruction-based Image Generation}, author={Yucheng Zhou and Jiahao Yuan and Qianning Wang}, year={2025}, eprint={2505.24787}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.24787}, }

许可证

  • 类型: MIT License
  • 链接: https://opensource.org/licenses/MIT
搜集汇总
数据集介绍
main_image_url
构建方式
LongBench-T2I数据集的构建采用了多阶段流水线方法,结合大型语言模型(LLM)的生成能力和人工审核的精确把控。首先从Object365数据集中随机选取种子对象,利用LLM生成基础视觉草图,随后通过LLM增强为包含视觉纠缠、复杂交互和电影化特性的详细场景描述。每个复杂指令需通过自动化元素提取验证九大视觉维度(如物体、背景、色彩等)的完整性,最终由两名研究生从视觉元素丰富度、结构复杂性等四个维度进行人工筛选,确保500条提示词兼具复杂性与生成质量。
特点
该数据集的核心特点在于其系统性的多维度评估体系,包含九大视觉要素的细粒度分析框架,突破了传统基准测试对单一组合能力的局限。提示词平均长度达683个标记,通过LLM生成与人工筛选的双重机制,实现了指令在叙事深度、空间关系复杂度及特殊视觉效果等方面的多样性。数据集特别强调长上下文指令中物体属性绑定、空间层次关系的精确表达,为评估模型在开放式创作场景下的语义对齐能力提供了标准化测试环境。
使用方法
使用LongBench-T2I时需结合其专用评估工具包,该工具利用多模态大模型(如Gemini-2.0-Flash)对生成图像进行九维度的自动化评分。研究人员可通过对比不同模型在物体呈现准确度、光影一致性等维度的表现,系统分析模型处理复杂指令的优劣。配套的Plan2Gen代理框架支持分层生成策略,先将指令分解为背景、中景、前景三个层次进行渐进式生成与验证,该方法可直接集成于现有文生图模型,无需额外训练即可提升长指令遵循能力。
背景与挑战
背景概述
LongBench-T2I数据集由澳门大学、华东师范大学和奥克兰理工大学的研究团队于2025年5月联合推出,旨在解决复杂指令驱动的图像生成领域的关键问题。该数据集包含500个精心设计的复杂提示,涵盖对象、背景、色彩等九大视觉评估维度,突破了传统文本-图像生成基准在长上下文、多元素组合方面的局限性。作为首个专注于多层次复杂指令评估的基准,LongBench-T2I通过结合大语言模型的解析能力与人类专家的双重验证机制,为评估生成模型对复杂语义的理解与执行能力建立了新的标准,推动了可控图像生成技术的发展。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决现有文本-图像模型对包含多对象属性、空间关系及特殊效果的长指令(平均600词)理解不足的问题,传统评估指标如CLIPScore难以捕捉复杂指令的语义细节;在构建技术层面,需克服多阶段生成流程中的语义一致性维护难题,包括LLM生成的草图描述与最终复杂场景的视觉元素对齐、九大评估维度的自动化验证,以及人类专家在创意性特效评估中的主观偏差控制。数据集通过分层分解和渐进式生成验证机制应对这些挑战,但模型在文本符号生成和特殊效果实现维度仍存在显著性能差距。
常用场景
经典使用场景
LongBench-T2I数据集在文本到图像生成领域中被广泛用于评估模型处理复杂指令的能力。该数据集包含500个精心设计的提示,涵盖九个视觉评估维度,能够全面测试模型在生成图像时对多对象、多属性和复杂空间关系的理解能力。研究人员利用该数据集对各类文本到图像生成模型进行系统性评估,从而揭示模型在复杂场景生成中的优势和不足。
解决学术问题
LongBench-T2I数据集解决了文本到图像生成领域中模型在处理复杂指令时表现不佳的问题。现有基准测试通常关注简单的文本-图像对齐,而忽略了多对象组合、精细属性和空间关系等复杂要求。该数据集通过引入多维度评估指标,填补了这一空白,为研究复杂指令驱动的图像生成提供了标准化工具,推动了可控生成模型的发展。
衍生相关工作
LongBench-T2I数据集衍生了一系列相关研究,包括Plan2Gen代理框架,该框架通过分层生成和迭代验证的方法提升复杂指令下的图像生成质量。此外,基于该数据集的评估工具包也被广泛应用于各类文本到图像模型的性能测试,推动了多模态大语言模型在视觉生成任务中的应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作