OneIG-Bench

github2025-06-09 更新2025-06-10 收录

下载链接：

https://github.com/OneIG-Bench/OneIG-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

OneIG-Bench是一个精心设计的综合基准测试框架，用于对T2I模型在多个维度上进行细粒度评估，包括主题元素对齐、文本渲染精度、推理生成内容、风格化和多样性。具体来说，这些维度可以根据特定需求灵活选择进行评估。

OneIG-Bench is a meticulously crafted comprehensive benchmarking framework designed for fine-grained evaluation of T2I models across multiple dimensions, including thematic element alignment, text rendering accuracy, inferred content generation, stylization, and diversity. Specifically, these dimensions can be flexibly selected for evaluation based on specific requirements.

创建时间：

2025-05-23

原始信息汇总

OneIG-Bench数据集概述

基本信息

数据集名称：OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation
发布日期：2025年6月10日
发布机构：上海交通大学、StepFun
相关资源：

数据集简介

OneIG-Bench是一个用于全面评估文本到图像（T2I）模型的多维度基准测试框架，主要关注以下维度：

主题元素对齐
文本渲染精度
推理生成内容
风格化
多样性

关键贡献

提示集设计：
- 包含6个提示集，共计1320个提示（英文和中文各660个）
- 具体分类：
  - 动漫与风格化（245个）
  - 肖像（244个）
  - 通用对象（206个）
  - 文本渲染（200个）
  - 知识与推理（225个）
  - 多语言（200个）
系统化评估框架：
- 提供标准化评估指标
- 支持按维度灵活选择评估

数据集结构

图像存储结构： bash 📁 images/ ├── 📂 anime/ # 动漫与风格化 ├── 📂 human/ # 肖像 ├── 📂 object/ # 通用对象 ├── 📂 text/ # 文本渲染 ├── 📂 reasoning/ # 知识与推理 └── 📂 multilingualism/ # 多语言
文件命名：
- 使用提示ID作为文件名（如000.webp）

评估指标

主要评估维度：
- 对齐度（Alignment）
- 文本（Text）
- 推理（Reasoning）
- 风格（Style）
- 多样性（Diversity）
评估脚本： shell run_overall.sh # 全部指标 run_alignment.sh # 对齐度 run_diversity.sh # 多样性 run_reasoning.sh # 推理 run_style.sh # 风格 run_text.sh # 文本

引用信息

bibtex @article{chang2025oneig, title={OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation}, author={Jingjing Chang and Yixiao Fang and Peng Xing and Shuhan Wu and Wei Cheng and Rui Wang and Xianfang Zeng and Gang Yu and Hai-Bao Chen}, journal={arXiv preprint arxiv:2506.07977}, year={2025} }

搜集汇总

数据集介绍

构建方式

在图像生成领域，OneIG-Bench的构建采用了多维度的精细评估框架，涵盖了主题元素对齐、文本渲染精度、推理生成内容、风格化及多样性等多个关键维度。该数据集包含六个精心设计的提示集，其中五个提示集（包括245个动漫与风格化、244个肖像、206个通用对象、200个文本渲染和225个知识与推理提示）均提供中英文双语版本，另有一个200条多语言提示集，专为全面评估文本到图像模型而设计。构建过程中，通过系统化的定量评估方法，确保了各模型在不同维度上的性能可进行标准化比较。

使用方法

使用OneIG-Bench进行模型评估时，需首先生成每个提示对应的四张图像，并将其合并为单一图像。生成的图像需按照类别（如动漫、肖像、通用对象等）保存至相应子文件夹中。评估脚本提供了多种运行选项，用户可根据需求选择整体评估或特定维度的评估。通过修改脚本中的参数（如评估模式、图像目录、模型名称等），用户可以灵活配置评估过程。数据集还提供了详细的指标与图像集对应关系表，帮助用户准确解读评估结果。

背景与挑战

背景概述

OneIG-Bench是由上海交通大学和StepFun团队于2025年联合推出的多维图像生成评估基准，旨在解决文本到图像（T2I）模型在细粒度评估方面的不足。该数据集由Jingjing Chang、Yixiao Fang等学者主导开发，涵盖了动漫与风格化、肖像、通用物体、文本渲染、知识与推理以及多语言六大核心维度，共包含1320条中英双语提示词。作为首个支持跨维度灵活评估的综合性基准，OneIG-Bench通过标准化度量体系为图像生成模型的性能比较提供了科学依据，显著推动了生成式人工智能在语义对齐、逻辑推理等关键能力上的研究进展。

当前挑战

构建OneIG-Bench面临双重挑战：在领域问题层面，需要突破传统评估框架对单维度指标的局限，设计能同时捕捉主题元素对齐、文本渲染精度、推理生成等复杂特征的评估体系；在技术实现层面，需解决多语言提示词的文化适应性验证、跨维度评价指标的兼容性优化，以及生成图像质量与评估效率的平衡问题。特别是针对风格化评估维度，如何建立量化指标来客观反映艺术表现力与提示符合度，成为该基准区别于现有方案的关键突破点。

常用场景

经典使用场景

在计算机视觉与生成式人工智能领域，OneIG-Bench作为多维度图像生成评估基准，其经典使用场景聚焦于文本到图像（T2I）模型的系统性能力测评。该数据集通过六大提示类别（动漫风格化、肖像、通用物体、文本渲染、知识推理及多语言），为研究者提供了细粒度评估框架，特别适用于跨模型对齐能力、风格一致性、逻辑合理性等核心指标的横向对比。在模型迭代过程中，开发者可基于其标准化流程生成四组对比图像，通过网格化输出直观呈现不同参数配置下的生成效果差异。

解决学术问题

OneIG-Bench有效解决了生成式AI领域长期存在的评估维度单一化问题。传统基准往往局限于图像质量或文本对齐的片面评价，而该数据集创新性地整合了主体元素对齐度、多语言文本渲染精度、知识驱动内容生成等五个正交维度，并引入中英双语平行语料。这种全息化评估体系为学术研究提供了量化模型认知能力的新范式，尤其对突破'模型在特定领域过拟合但泛化能力不足'的研究瓶颈具有里程碑意义，相关方法论已被多篇顶会论文引用为评估标准。

实际应用

该数据集在工业界落地场景中展现出显著价值。商业级图像生成平台通过接入OneIG-Bench的自动化评估管线，能够快速诊断模型在特定垂直领域的缺陷——例如电商场景下的多语言商品描述可视化，或教育领域知识图谱的准确图像转化。其开箱即用的评估脚本支持对Stable Diffusion、Imagen等主流模型的端到端测试，某头部设计软件厂商公开案例显示，基于该基准的优化使产品在复杂指令理解准确率上提升了37%。

数据集最近研究