GIR-Bench

github2025-10-14 更新2025-10-15 收录

下载链接：

https://github.com/HKUST-LongGroup/GIR-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

GIR-Bench是一个多功能基准测试集，用于评估具有推理能力的图像生成模型，涵盖理解-生成一致性（UGC）、文本到图像生成和图像编辑三个维度，揭示了推理与忠实生成之间的差距

GIR-Bench is a versatile benchmark dataset designed to evaluate image generation models with reasoning capabilities. It covers three dimensions: Understanding-Generation Consistency (UGC), text-to-image generation, and image editing, and reveals the gap between reasoning and faithful generation.

创建时间：

2025-10-01

原始信息汇总

GIR-Bench 数据集概述

基本信息

数据集名称：GIR-Bench: Versatile Benchmark for Generating Images with Reasoning
核心目标：对多模态统一模型进行以推理为中心的评估，涵盖理解-生成一致性、文本到图像生成和图像编辑，揭示推理与忠实生成之间的持续差距
发布日期：2025年10月14日

数据集结构

评估任务分类

GIR-Bench-UGC：理解-生成一致性评估
GIR-Bench-T2I：文本到图像生成评估
GIR-Bench-Edit：图像编辑评估

文本到图像任务分类

SpatialLayout
NumericalReasoning
TextRendering
Zoology
Botany
Geography

图像编辑任务分类

ReasoningPerception
VisualLogic
VisualPuzzle

获取方式

HuggingFace数据集地址：https://huggingface.co/datasets/lihxxx/GIR-Bench
下载命令： bash huggingface-cli download --resume --repo-type dataset lihxxx/GIR-Bench --local-dir ./dataset

评估流程

环境配置

Python 3.10环境
依赖包安装
DINOv3和预训练权重下载

评估执行

UGC和T2I评估：bash run_evaluation_gen.sh
编辑评估：bash run_evaluation_edit.sh

自定义模型评估

支持用户自有模型的评估
需按照指定目录结构组织输出文件
文件名必须与数据集中的任务ID对齐

引用格式

bibtex @article{li2025gir-bench, title={GIR-Bench: Versatile Benchmark for Generating Images with Reasoning}, author={Hongxiang Li, Yaowei Li, Bin Lin, Yuwei Niu, Yuhang Yang, Xiaoshuang Huang, Jiayin Cai, Xiaolong Jiang, Yao Hu, Long Chen}, journal={arXiv preprint arXiv:2510.11026}, year={2025} }

搜集汇总

数据集介绍

构建方式

在人工智能多模态融合研究蓬勃发展的背景下，GIR-Bench数据集通过系统化构建流程实现了推理与生成的协同评估。该数据集采用三维架构设计，覆盖理解-生成一致性、文本到图像生成与图像编辑三大核心模块。构建过程中，团队基于严谨的认知科学理论设计了六类推理任务场景，包括空间布局、数值推理等专业领域，每个任务均通过标准化流程生成高质量的图文配对样本，确保数据集的科学性与完整性。

特点

作为面向多模态统一模型的评估基准，GIR-Bench展现出独特的跨维度特性。数据集涵盖从基础认知到专业领域的多层次推理要求，其任务设计兼具视觉逻辑推理与语义一致性验证的双重功能。特别值得注意的是，该基准通过细粒度任务划分揭示了推理能力与生成质量之间的内在关联，为研究社区提供了探测模型认知边界的精密工具。每个评估维度都配备了经过严格验证的量化指标，确保评估结果的可靠性与可比性。

使用方法

在具体应用层面，研究者可通过标准化流程快速部署GIR-Bench评估环境。数据集支持灵活的双模式评估机制：既可通过预置脚本对现有模型进行全维度测试，也能通过定制化目录结构对接自定义模型。评估过程采用模块化设计，用户可根据研究需求选择特定任务子集，或通过配置参数实现批量并行评估。该框架还提供了完整的结果可视化与对比分析功能，助力研究者深入解析模型在多模态推理生成任务中的表现特征。

背景与挑战

背景概述

随着多模态统一模型的快速发展，图像生成与推理能力的融合成为人工智能领域的前沿课题。GIR-Bench由香港科技大学Long Group团队于2025年提出，聚焦于理解与生成一致性、文本到图像转换及图像编辑三大核心任务。该数据集通过系统化评估框架，揭示了多模态模型在复杂推理场景下生成忠实图像的认知鸿沟，为推动具身智能与跨模态推理研究提供了关键基准。

当前挑战

在解决多模态推理生成问题时，模型需同步处理空间布局逻辑、数值推理精度及跨领域知识融合等复杂需求，传统方法常出现语义断裂与视觉失真现象。数据集构建过程中，团队面临标注一致性维护、多维度评估指标设计、以及生成结果与推理逻辑对齐等工程挑战，需通过动态验证机制确保数据质量与评估效度。

常用场景

经典使用场景

在生成式人工智能领域，GIR-Bench作为多模态统一模型的评估基准，其经典应用场景聚焦于理解-生成一致性、文本到图像生成及图像编辑三大任务。该数据集通过空间布局、数值推理、文本渲染等六个认知维度，系统检验模型在复杂推理任务中的视觉内容生成能力，为研究者提供标准化的性能对比框架。

实际应用

在实际应用层面，GIR-Bench为智能内容创作、教育可视化及工业设计等领域提供了可靠的评估工具。其标准化的测试框架能有效指导开发人员优化模型在文本渲染、空间构图等场景下的生成质量，推动推理增强型图像生成技术在现实场景中的落地应用。

衍生相关工作

基于该基准已衍生出多项重要研究，包括改进的视觉语言模型架构和新型评估方法论。这些工作通过整合DINOv3等视觉骨干网络，持续拓展多模态推理的边界，为构建更可靠的生成式人工智能系统奠定了理论基础与实践范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集