five

R2I-Bench

收藏
arXiv2025-05-29 更新2025-05-31 收录
下载链接:
https://r2i-bench.github.io
下载链接
链接失效反馈
资源简介:
R2I-Bench是一个综合性的基准数据集,旨在评估文本到图像生成模型的推理能力。数据集涵盖了7个主要的推理类别,进一步细分为32个细粒度的子类别。R2I-Bench包含3068个精心策划的数据实例,涵盖了常识、数学、逻辑、组合、数值、因果和概念混合等核心推理类别。为了实现细粒度的评估,我们设计了R2I-Score,这是一种基于实例特定、推理导向的评估问题的QA风格指标,评估三个关键维度:文本图像对齐、推理准确性和图像质量。

R2I-Bench is a comprehensive benchmark dataset designed to evaluate the reasoning capabilities of text-to-image generation models. The dataset covers 7 major reasoning categories, which are further subdivided into 32 fine-grained subcategories. R2I-Bench contains 3068 carefully curated data instances, covering core reasoning categories such as common sense, mathematics, logic, composition, numerical reasoning, causality, and conceptual mixing. To enable fine-grained evaluation, we propose R2I-Score, a QA-style metric based on instance-specific, reasoning-oriented evaluation questions, which assesses three key dimensions: text-image alignment, reasoning accuracy, and image quality.
提供机构:
加州大学戴维斯分校,弗吉尼亚理工大学,伊利诺伊大学香槟分校,密歇根州立大学,直觉人工智能研究
创建时间:
2025-05-29
原始信息汇总

R2I-Bench 数据集概述

数据集简介

  • 名称: R2I-Bench
  • 目的: 评估文本到图像(T2I)生成模型的推理能力
  • 特点:
    • 包含7个主要推理类别
    • 细分为32个子类别
    • 3,068个精心策划的数据实例

核心推理类别

  1. 常识推理 (Commonsense)
  2. 数学推理 (Mathematical)
  3. 逻辑推理 (Logical)
  4. 组合推理 (Compositional)
  5. 数值推理 (Numerical)
  6. 因果推理 (Causal)
  7. 概念混合 (Concept Mixing)

评估指标 (R2I-Score)

  • 文本-图像对齐 (Text-image alignment)
  • 推理准确性 (Reasoning accuracy)
  • 图像质量 (Image quality)

排行榜 (部分模型)

排名 模型 方法 日期 总分 常识 组合 概念混合 逻辑 数学 数值 因果
1 SD3-medium Diffusion Models 2024-10 0.45 0.54 0.64 0.63 0.55 0.19 0.50 0.18
2 Lumina-Image 2.0 Diffusion Models 2025-03 0.42 0.49 0.65 0.54 0.56 0.13 0.43 0.40
15 DALL-E-3 Close Source Models 2023-9 0.71 0.78 0.76 0.86 0.69 0.21 0.69 0.64
16 gpt-image-1 Close Source Models 2025-04 0.77 0.83 0.87 0.89 0.81 0.58 0.88 0.71

相关资源

AI搜集汇总
数据集介绍
构建方式
R2I-Bench数据集的构建采用了严谨的人机协作流程,通过三阶段方法论实现:首先由领域专家基于文献分析确立7大核心推理类别及其32个子类,随后利用GPT-4o生成初始提示并经过人工筛选,最终通过迭代优化扩展至3,068个高质量实例。每个数据实例包含推理提示、参考描述、解释说明及细粒度分类标签,并通过专家验证的评估标准确保数据质量。
特点
该数据集具有多维度的创新特性:覆盖常识推理、数学推理等7大核心领域,包含3,068个经过严格验证的实例;首创R2I-Score评估体系,通过文本-图像对齐度、推理准确性和图像质量三维度进行量化评估;特别强化对抽象数学概念和复杂逻辑关系的测试,其中数学推理类别占比达26.08%,填补了现有基准在符号推理评估上的空白。
使用方法
使用该数据集时,研究者可通过标准化的评估协议进行多维度测试:将生成图像与实例特定的诊断问题集进行比对,采用R2I-Score的加权评分机制计算综合表现;支持零样本评估以检验模型泛化能力,同时提供提示重写框架(GPT-4o+SD3-medium)作为性能上限参考;建议配合误差分析工具对推理错误、视觉元素错误等三类典型失败模式进行细粒度诊断。
背景与挑战
背景概述
R2I-Bench是由Tongji University、University of California, Davis、Virginia Tech等机构的研究团队于2025年提出的一个综合性基准测试,旨在评估文本到图像(T2I)生成模型的推理能力。该数据集包含3,068个精心设计的数据实例,涵盖常识、数学、逻辑、组合、数值、因果和概念混合等7个核心推理类别,并细分为32个子类别。R2I-Bench通过引入R2I-Score这一基于问答风格的评估指标,从文本-图像对齐、推理准确性和图像质量三个关键维度对模型进行全面评估。该数据集的推出填补了T2I领域在系统性评估推理能力方面的空白,为相关研究提供了重要工具。
当前挑战
R2I-Bench面临的挑战主要体现在两个方面:领域问题方面,现有T2I模型在数学推理、逻辑推理等复杂任务上表现不佳,尤其是处理抽象数学概念和精确数量关系时准确率极低;构建过程方面,确保提示词的质量和唯一确定性、设计细粒度的评估标准、平衡不同推理类别的覆盖范围等都是构建过程中的主要难点。此外,评估指标需要兼顾推理深度和可解释性,这对人工标注和自动评分的结合提出了较高要求。
常用场景
经典使用场景
R2I-Bench作为文本到图像生成领域的基准测试工具,其经典使用场景在于评估模型在复杂推理任务中的表现。例如,在生成“被咬过并在空气中放置一周的苹果”图像时,模型需理解时间推移导致的腐烂过程,并将抽象概念转化为视觉元素。该数据集通过7大核心推理类别(常识、数学、逻辑等)和32个子类别,系统检验模型对隐含语义的解析能力,尤其擅长揭示模型在组合推理、假设情境构建等高层认知任务中的局限性。
实际应用
在实际应用中,R2I-Bench可显著提升智能创作工具的可靠性。例如在广告设计领域,能验证系统是否准确理解“将车辆替换为船只的雨天街道”这类隐喻需求;在教育内容生成中,可评估模型对“展示五边形旋转90度过程”等数学概念的视觉表达能力。其管道式评估框架(LLM+生成模型)已应用于商业系统优化,使DALL-E 3在因果推理任务中的准确率提升58%,证明该基准对工业级产品迭代的指导价值。
衍生相关工作
该数据集催生了多个里程碑式研究:Guo等人(2025)基于其发现的推理瓶颈提出CoT图像生成框架,通过思维链分解提升组合推理能力;Wu团队的ConceptMix将概念混合任务扩展至跨模态场景;Niu等人构建的WISE基准继承其人工验证机制,增强了文化常识评估维度。相关衍生工作已形成从评估到方法改进的完整研究链条,推动T2I领域从感知智能向认知智能的范式转变。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作