R2I-Bench

Name: R2I-Bench
Creator: 加州大学戴维斯分校,弗吉尼亚理工大学,伊利诺伊大学香槟分校,密歇根州立大学,直觉人工智能研究
Published: 2025-05-29 22:43:46
License: 暂无描述

arXiv2025-05-29 更新2025-05-31 收录

下载链接：

https://r2i-bench.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

R2I-Bench是一个综合性的基准数据集，旨在评估文本到图像生成模型的推理能力。数据集涵盖了7个主要的推理类别，进一步细分为32个细粒度的子类别。R2I-Bench包含3068个精心策划的数据实例，涵盖了常识、数学、逻辑、组合、数值、因果和概念混合等核心推理类别。为了实现细粒度的评估，我们设计了R2I-Score，这是一种基于实例特定、推理导向的评估问题的QA风格指标，评估三个关键维度：文本图像对齐、推理准确性和图像质量。

R2I-Bench is a comprehensive benchmark dataset designed to evaluate the reasoning capabilities of text-to-image generation models. This dataset covers 7 major reasoning categories, which are further subdivided into 32 fine-grained subcategories. R2I-Bench contains 3,068 carefully curated data instances, covering core reasoning categories such as common sense, mathematics, logic, compositional reasoning, numerical reasoning, causality, and conceptual mixing. To enable fine-grained evaluation, we designed R2I-Score, a QA-style metric based on instance-specific and reasoning-oriented evaluation questions, which assesses three key dimensions: text-image alignment, reasoning accuracy, and image quality.

提供机构：

加州大学戴维斯分校,弗吉尼亚理工大学,伊利诺伊大学香槟分校,密歇根州立大学,直觉人工智能研究

创建时间：

2025-05-29

原始信息汇总

R2I-Bench 数据集概述

数据集简介

名称: R2I-Bench
目的: 评估文本到图像(T2I)生成模型的推理能力
特点:
- 包含7个主要推理类别
- 细分为32个子类别
- 3,068个精心策划的数据实例

核心推理类别

常识推理 (Commonsense)
数学推理 (Mathematical)
逻辑推理 (Logical)
组合推理 (Compositional)
数值推理 (Numerical)
因果推理 (Causal)
概念混合 (Concept Mixing)

评估指标 (R2I-Score)

文本-图像对齐 (Text-image alignment)
推理准确性 (Reasoning accuracy)
图像质量 (Image quality)

排行榜 (部分模型)

排名	模型	方法	日期	总分	常识	组合	概念混合	逻辑	数学	数值	因果
1	SD3-medium	Diffusion Models	2024-10	0.45	0.54	0.64	0.63	0.55	0.19	0.50	0.18
2	Lumina-Image 2.0	Diffusion Models	2025-03	0.42	0.49	0.65	0.54	0.56	0.13	0.43	0.40
15	DALL-E-3	Close Source Models	2023-9	0.71	0.78	0.76	0.86	0.69	0.21	0.69	0.64
16	gpt-image-1	Close Source Models	2025-04	0.77	0.83	0.87	0.89	0.81	0.58	0.88	0.71

相关资源

论文: R2I-Bench: Benchmarking Reasoning-Driven Text-to-Image Generation

搜集汇总

数据集介绍

构建方式

R2I-Bench数据集的构建采用了严谨的人机协作流程，通过三阶段方法论实现：首先由领域专家基于文献分析确立7大核心推理类别及其32个子类，随后利用GPT-4o生成初始提示并经过人工筛选，最终通过迭代优化扩展至3,068个高质量实例。每个数据实例包含推理提示、参考描述、解释说明及细粒度分类标签，并通过专家验证的评估标准确保数据质量。

特点

该数据集具有多维度的创新特性：覆盖常识推理、数学推理等7大核心领域，包含3,068个经过严格验证的实例；首创R2I-Score评估体系，通过文本-图像对齐度、推理准确性和图像质量三维度进行量化评估；特别强化对抽象数学概念和复杂逻辑关系的测试，其中数学推理类别占比达26.08%，填补了现有基准在符号推理评估上的空白。

使用方法

使用该数据集时，研究者可通过标准化的评估协议进行多维度测试：将生成图像与实例特定的诊断问题集进行比对，采用R2I-Score的加权评分机制计算综合表现；支持零样本评估以检验模型泛化能力，同时提供提示重写框架（GPT-4o+SD3-medium）作为性能上限参考；建议配合误差分析工具对推理错误、视觉元素错误等三类典型失败模式进行细粒度诊断。

背景与挑战

背景概述

R2I-Bench是由Tongji University、University of California, Davis、Virginia Tech等机构的研究团队于2025年提出的一个综合性基准测试，旨在评估文本到图像（T2I）生成模型的推理能力。该数据集包含3,068个精心设计的数据实例，涵盖常识、数学、逻辑、组合、数值、因果和概念混合等7个核心推理类别，并细分为32个子类别。R2I-Bench通过引入R2I-Score这一基于问答风格的评估指标，从文本-图像对齐、推理准确性和图像质量三个关键维度对模型进行全面评估。该数据集的推出填补了T2I领域在系统性评估推理能力方面的空白，为相关研究提供了重要工具。

当前挑战

R2I-Bench面临的挑战主要体现在两个方面：领域问题方面，现有T2I模型在数学推理、逻辑推理等复杂任务上表现不佳，尤其是处理抽象数学概念和精确数量关系时准确率极低；构建过程方面，确保提示词的质量和唯一确定性、设计细粒度的评估标准、平衡不同推理类别的覆盖范围等都是构建过程中的主要难点。此外，评估指标需要兼顾推理深度和可解释性，这对人工标注和自动评分的结合提出了较高要求。

常用场景

经典使用场景

R2I-Bench作为文本到图像生成领域的基准测试工具，其经典使用场景在于评估模型在复杂推理任务中的表现。例如，在生成“被咬过并在空气中放置一周的苹果”图像时，模型需理解时间推移导致的腐烂过程，并将抽象概念转化为视觉元素。该数据集通过7大核心推理类别（常识、数学、逻辑等）和32个子类别，系统检验模型对隐含语义的解析能力，尤其擅长揭示模型在组合推理、假设情境构建等高层认知任务中的局限性。

实际应用

在实际应用中，R2I-Bench可显著提升智能创作工具的可靠性。例如在广告设计领域，能验证系统是否准确理解“将车辆替换为船只的雨天街道”这类隐喻需求；在教育内容生成中，可评估模型对“展示五边形旋转90度过程”等数学概念的视觉表达能力。其管道式评估框架（LLM+生成模型）已应用于商业系统优化，使DALL-E 3在因果推理任务中的准确率提升58%，证明该基准对工业级产品迭代的指导价值。

衍生相关工作

该数据集催生了多个里程碑式研究：Guo等人（2025）基于其发现的推理瓶颈提出CoT图像生成框架，通过思维链分解提升组合推理能力；Wu团队的ConceptMix将概念混合任务扩展至跨模态场景；Niu等人构建的WISE基准继承其人工验证机制，增强了文化常识评估维度。相关衍生工作已形成从评估到方法改进的完整研究链条，推动T2I领域从感知智能向认知智能的范式转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集