five

T2I-ReasonBench

收藏
github2025-08-26 更新2025-08-28 收录
下载链接:
https://github.com/KaiyueSun98/T2I-ReasonBench
下载链接
链接失效反馈
官方服务:
资源简介:
T2I-ReasonBench是一个新颖的基准测试数据集,旨在探索文本到图像模型的推理边界。该数据集包含800个精心设计的提示词,分为四个维度:(1)成语解释、(2)文本图像设计、(3)实体推理和(4)科学推理。这些维度挑战模型推断潜在含义、整合领域知识和解决上下文歧义的能力

T2I-ReasonBench is a novel benchmark dataset aimed at exploring the reasoning boundaries of text-to-image models. This dataset contains 800 meticulously designed prompts, which are divided into four dimensions: (1) Idiom Interpretation, (2) Text-to-Image Design, (3) Entity Reasoning, and (4) Scientific Reasoning. These dimensions challenge the model's capabilities to infer implicit meanings, integrate domain knowledge, and resolve contextual ambiguities.
创建时间:
2025-08-18
原始信息汇总

T2I-ReasonBench 数据集概述

数据集简介

T2I-ReasonBench是一个用于评估文本到图像生成模型推理能力的基准数据集。该数据集包含800个精心设计的提示词,涵盖四个推理维度,旨在挑战模型推断潜在含义、整合领域知识和解决上下文歧义的能力。

核心维度

  • 成语解释(Idiom Interpretation):200个提示词
  • 文本图像设计(Textual Image Design):200个提示词
  • 实体推理(Entity-Reasoning):200个提示词
  • 科学推理(Scientific-Reasoning):200个提示词

评估框架

采用两阶段评估方法:

  1. 大型语言模型(LLM)生成针对特定提示的问题-标准对
  2. 多模态大语言模型(MLLM)根据这些标准对生成的图像进行评分

数据文件结构

  • 提示词文件:prompts/目录下的JSON文件
  • 评估问题-标准对:deepseek_evaluation_qs/目录下的JSON文件

评估指标

  • 成语解释和文本图像设计:推理准确性和图像质量评分
  • 实体推理和科学推理:推理评估、细节评估和图像质量评估

适用模型

已对14个最先进的文本到图像生成模型进行基准测试,包括12个开源模型和2个专有模型(GPT-Image-1和Gemini-2.0)

引用信息

bibtex @misc{sun2025t2ireasonbenchbenchmarkingreasoninginformedtexttoimage, title={T2I-ReasonBench: Benchmarking Reasoning-Informed Text-to-Image Generation}, author={Kaiyue Sun and Rongyao Fang and Chengqi Duan and Xian Liu and Xihui Liu}, year={2025}, eprint={2508.17472}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2508.17472}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在文本到图像生成领域,T2I-ReasonBench的构建采用了系统化方法,通过精心设计800个提示词,涵盖成语解释、文本图像设计、实体推理和科学推理四个维度。每个维度包含200个提示,均以JSON格式存储,确保数据的结构化和可扩展性。构建过程中注重提示词的多样性和复杂性,以挑战模型在隐含意义推断和领域知识整合方面的能力。
特点
T2I-ReasonBench的显著特点在于其多维度的评估框架,专注于推理能力的量化分析。数据集包含成语解释、文本图像设计、实体推理和科学推理四个独特维度,每个维度旨在测试模型的不同推理能力。提示词设计强调上下文模糊性解析和潜在含义推断,为评估提供了丰富的语义层次。此外,数据集还配备了由大型语言模型生成的特定问题-标准对,用于多模态评估,确保评分的客观性和全面性。
使用方法
使用T2I-ReasonBench时,研究人员首先生成图像,并按照指定目录结构组织文件。评估过程采用两阶段框架:首先利用大型语言模型生成针对每个提示的问题-标准对,然后通过多模态大语言模型(如Qwen2.5-VL)对生成的图像进行评分。用户需运行相应的Python脚本,配置图像文件夹、输出路径和元数据JSON文件,最终结果以CSV格式保存,包含推理准确性和图像质量得分,便于后续分析和比较。
背景与挑战
背景概述
文本到图像生成技术作为多模态人工智能的核心分支,近年来在视觉内容合成领域取得显著进展。T2I-ReasonBench由香港大学和香港中文大学的研究团队于2025年联合创建,旨在系统评估生成模型在复杂推理任务中的表现。该数据集聚焦于推理能力边界的探索,通过成语解读、文本图像设计、实体推理和科学推理四个维度,构建了800个精细设计的提示词集合,推动生成模型从表层语义理解向深层逻辑推理的跨越,为下一代文本到图像系统的能力演进提供了重要基准。
当前挑战
该数据集针对文本到图像生成中高阶推理能力缺失的核心问题,要求模型具备潜在语义推断、领域知识整合和上下文歧义消解等能力。构建过程中面临多重挑战:一是提示词设计需平衡文化语境与逻辑复杂性,确保评估维度全面性;二是需建立自动化评估框架,通过大语言模型生成动态评价标准,再借助多模态模型进行图像质量与推理准确性的双重验证;三是在跨模型评估中需保持评分标准的一致性,避免主观偏差影响基准可靠性。
常用场景
经典使用场景
在文本到图像生成领域,T2I-ReasonBench作为评估基准,主要用于系统测试生成模型在复杂推理任务中的表现。该数据集通过成语解释、文本图像设计、实体推理和科学推理四个维度,要求模型不仅理解表面文本,还需进行深层次语义推断和知识整合,从而推动模型在多模态理解方面的边界拓展。
解决学术问题
T2I-ReasonBench致力于解决文本到图像生成中模型缺乏深层推理能力的问题,填补了现有基准在评估隐式语义理解和知识应用方面的空白。该数据集通过构建多维度推理任务,促进了生成模型在逻辑推断、上下文消歧和领域知识融合等方面的研究,为下一代多模态系统的发展提供了关键评估工具和理论支撑。
衍生相关工作
T2I-ReasonBench催生了一系列基于多模态大模型的评估与生成方法研究,例如采用Qwen2.5-VL作为评估工具的两阶段评测框架。相关经典工作包括对14种先进文本生成图像模型的系统性性能对比,以及针对推理能力优化的新型生成架构探索,这些研究显著推动了生成模型在复杂语义理解方面的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作