T2I-ReasonBench

github2025-08-26 更新2025-08-28 收录

下载链接：

https://github.com/KaiyueSun98/T2I-ReasonBench

下载链接

链接失效反馈

官方服务：

资源简介：

T2I-ReasonBench是一个新颖的基准测试数据集，旨在探索文本到图像模型的推理边界。该数据集包含800个精心设计的提示词，分为四个维度：(1)成语解释、(2)文本图像设计、(3)实体推理和(4)科学推理。这些维度挑战模型推断潜在含义、整合领域知识和解决上下文歧义的能力

T2I-ReasonBench is a novel benchmark dataset aimed at exploring the reasoning boundaries of text-to-image models. This dataset contains 800 meticulously designed prompts, which are divided into four dimensions: (1) Idiom Interpretation, (2) Text-to-Image Design, (3) Entity Reasoning, and (4) Scientific Reasoning. These dimensions challenge the model's capabilities to infer implicit meanings, integrate domain knowledge, and resolve contextual ambiguities.

创建时间：

2025-08-18

原始信息汇总

T2I-ReasonBench 数据集概述

数据集简介

T2I-ReasonBench是一个用于评估文本到图像生成模型推理能力的基准数据集。该数据集包含800个精心设计的提示词，涵盖四个推理维度，旨在挑战模型推断潜在含义、整合领域知识和解决上下文歧义的能力。

核心维度

成语解释（Idiom Interpretation）：200个提示词
文本图像设计（Textual Image Design）：200个提示词
实体推理（Entity-Reasoning）：200个提示词
科学推理（Scientific-Reasoning）：200个提示词

评估框架

采用两阶段评估方法：

大型语言模型（LLM）生成针对特定提示的问题-标准对
多模态大语言模型（MLLM）根据这些标准对生成的图像进行评分

数据文件结构

提示词文件：prompts/目录下的JSON文件
评估问题-标准对：deepseek_evaluation_qs/目录下的JSON文件

评估指标

成语解释和文本图像设计：推理准确性和图像质量评分
实体推理和科学推理：推理评估、细节评估和图像质量评估

适用模型

已对14个最先进的文本到图像生成模型进行基准测试，包括12个开源模型和2个专有模型（GPT-Image-1和Gemini-2.0）

引用信息

bibtex @misc{sun2025t2ireasonbenchbenchmarkingreasoninginformedtexttoimage, title={T2I-ReasonBench: Benchmarking Reasoning-Informed Text-to-Image Generation}, author={Kaiyue Sun and Rongyao Fang and Chengqi Duan and Xian Liu and Xihui Liu}, year={2025}, eprint={2508.17472}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2508.17472}, }

搜集汇总

数据集介绍

构建方式

在文本到图像生成领域，T2I-ReasonBench的构建采用了系统化方法，通过精心设计800个提示词，涵盖成语解释、文本图像设计、实体推理和科学推理四个维度。每个维度包含200个提示，均以JSON格式存储，确保数据的结构化和可扩展性。构建过程中注重提示词的多样性和复杂性，以挑战模型在隐含意义推断和领域知识整合方面的能力。

特点

T2I-ReasonBench的显著特点在于其多维度的评估框架，专注于推理能力的量化分析。数据集包含成语解释、文本图像设计、实体推理和科学推理四个独特维度，每个维度旨在测试模型的不同推理能力。提示词设计强调上下文模糊性解析和潜在含义推断，为评估提供了丰富的语义层次。此外，数据集还配备了由大型语言模型生成的特定问题-标准对，用于多模态评估，确保评分的客观性和全面性。

使用方法

使用T2I-ReasonBench时，研究人员首先生成图像，并按照指定目录结构组织文件。评估过程采用两阶段框架：首先利用大型语言模型生成针对每个提示的问题-标准对，然后通过多模态大语言模型（如Qwen2.5-VL）对生成的图像进行评分。用户需运行相应的Python脚本，配置图像文件夹、输出路径和元数据JSON文件，最终结果以CSV格式保存，包含推理准确性和图像质量得分，便于后续分析和比较。

背景与挑战

背景概述

文本到图像生成技术作为多模态人工智能的核心分支，近年来在视觉内容合成领域取得显著进展。T2I-ReasonBench由香港大学和香港中文大学的研究团队于2025年联合创建，旨在系统评估生成模型在复杂推理任务中的表现。该数据集聚焦于推理能力边界的探索，通过成语解读、文本图像设计、实体推理和科学推理四个维度，构建了800个精细设计的提示词集合，推动生成模型从表层语义理解向深层逻辑推理的跨越，为下一代文本到图像系统的能力演进提供了重要基准。

当前挑战

该数据集针对文本到图像生成中高阶推理能力缺失的核心问题，要求模型具备潜在语义推断、领域知识整合和上下文歧义消解等能力。构建过程中面临多重挑战：一是提示词设计需平衡文化语境与逻辑复杂性，确保评估维度全面性；二是需建立自动化评估框架，通过大语言模型生成动态评价标准，再借助多模态模型进行图像质量与推理准确性的双重验证；三是在跨模型评估中需保持评分标准的一致性，避免主观偏差影响基准可靠性。

常用场景

经典使用场景

在文本到图像生成领域，T2I-ReasonBench作为评估基准，主要用于系统测试生成模型在复杂推理任务中的表现。该数据集通过成语解释、文本图像设计、实体推理和科学推理四个维度，要求模型不仅理解表面文本，还需进行深层次语义推断和知识整合，从而推动模型在多模态理解方面的边界拓展。

解决学术问题

T2I-ReasonBench致力于解决文本到图像生成中模型缺乏深层推理能力的问题，填补了现有基准在评估隐式语义理解和知识应用方面的空白。该数据集通过构建多维度推理任务，促进了生成模型在逻辑推断、上下文消歧和领域知识融合等方面的研究，为下一代多模态系统的发展提供了关键评估工具和理论支撑。

衍生相关工作

T2I-ReasonBench催生了一系列基于多模态大模型的评估与生成方法研究，例如采用Qwen2.5-VL作为评估工具的两阶段评测框架。相关经典工作包括对14种先进文本生成图像模型的系统性性能对比，以及针对推理能力优化的新型生成架构探索，这些研究显著推动了生成模型在复杂语义理解方面的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集