five

T2I-CoReBench

收藏
github2025-09-08 更新2025-09-09 收录
下载链接:
https://github.com/KwaiVGI/T2I-CoReBench
下载链接
链接失效反馈
官方服务:
资源简介:
T2I-CoReBench是一个全面的文本到图像模型评估基准数据集,涵盖组合和推理两个基本生成能力的12个评估维度。该基准具有高复杂性,平均提示长度为170个标记,平均包含12.5个问题。数据集专门设计用于评估模型在复杂组合(视觉元素>5)和推理(一对多或多对一推理)场景下的性能

T2I-CoReBench is a comprehensive benchmark dataset for evaluating text-to-image models, covering 12 evaluation dimensions across its two core generative capabilities: composition and reasoning. This benchmark features high complexity, with an average prompt length of 170 tokens and an average of 12.5 questions per prompt. The dataset is specifically designed to assess the performance of models in scenarios involving complex composition (with more than 5 visual elements) and reasoning (one-to-many or many-to-one reasoning).
创建时间:
2025-09-02
原始信息汇总

T2I-CoReBench 数据集概述

数据集基本信息

  • 名称:T2I-CoReBench
  • 发布年份:2025年
  • 主要用途:评估文本到图像生成模型的组合与推理能力

核心特点

  • 涵盖12个评估维度,分为两大生成能力:
    • 组合能力:包括MI、MA、MR、TR
    • 推理能力
      • 演绎推理:LR、BR、HR、PR
      • 归纳推理:GR、AR
      • 溯因推理:CR、RR
  • 平均提示词长度:170个token
  • 平均检查问题数量:12.5个
  • 复杂性高,推理问题更具挑战性

数据内容

  • 提示词文件位于./data目录
  • 生成图像可通过脚本自动产生
  • 评估框架支持Gemini 2.5 Flash和Qwen2.5-VL-72B两种后端

评估方法

  • 自动评估生成图像在所有12个维度上的表现
  • 输出每个维度的平均分数(mean_score)
  • 结果以独立JSON文件格式保存

相关资源

  • 项目页面:https://t2i-corebench.github.io/
  • 论文地址:https://arxiv.org/abs/2509.03516
  • 数据集地址:https://huggingface.co/datasets/lioooox/T2I-CoReBench
  • 图像数据地址:https://huggingface.co/datasets/lioooox/T2I-CoReBench-Images
  • 代码仓库:https://github.com/KwaiVGI/T2I-CoReBench

技术需求

  • 图像生成:支持自定义T2I模型
  • 评估环境:
    • Gemini 2.5 Flash需要API密钥
    • Qwen2.5-VL-72B建议使用8×A800 GPUs(80GB),最低4×A800 GPUs

引用信息

bibtex @article{li2025easier, title={Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?}, author={Li, Ouxiang and Wang, Yuan and Hu, Xinting and Huang, Huijuan and Chen, Rui and Ou, Jiarong and Tao, Xin and Wan, Pengfei and Feng, Fuli}, journal={arXiv preprint arXiv:2509.03516}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在文本到图像生成领域,T2I-CoReBench数据集通过精心设计的评估分类法构建而成,涵盖组合与推理两大核心生成能力,并细分为12个评估维度。构建过程中采用高复杂度的提示设计,平均提示长度达170个标记,每个提示平均对应12.5个检查问题,确保数据集的深度与广度。数据收集基于多源文本提示,经过严格筛选与标注,形成具有高度挑战性的评估基准。
特点
T2I-CoReBench数据集以其全面的评估维度和高复杂性著称,覆盖组合能力中的多重实例、属性整合、关系建模与时空推理,以及推理能力中的演绎、归纳与溯因推理。数据集提示平均长度显著高于同类基准,问题数量丰富,能够深入检验模型在复杂场景下的表现。其结构设计科学,分布合理,为文本到图像模型的综合评估提供了坚实支撑。
使用方法
使用T2I-CoReBench数据集时,首先通过提供的脚本从数据目录中读取提示并生成图像,支持自定义模型与GPU配置。评估阶段可采用基于Gemini 2.5 Flash或Qwen2.5-VL-72B的框架,自动对生成图像进行12维度的分析并输出各维度平均分数。评估结果以JSON格式保存,便于后续分析与比较,整个过程高效且可重复。
背景与挑战
背景概述
文本到图像生成技术作为人工智能领域的前沿研究方向,近年来取得了显著进展。T2I-CoReBench数据集由快手科技与中国科学技术大学等机构于2025年联合创建,旨在系统评估文本到图像模型在组合与推理两大核心能力上的表现。该数据集通过构建12个维度的评估体系,深入探究模型对复杂文本描述的理解与视觉化能力,为生成式人工智能的发展提供了重要的基准工具。
当前挑战
该数据集主要应对文本到图像生成中组合与推理能力的评估挑战,包括多元素组合、逻辑关系表达及复杂推理过程的视觉呈现。构建过程中面临提示词设计的高复杂性,平均提示长度达170个词汇,需确保语义精确性与评估维度全覆盖。同时,评估框架需要协调多模态大模型的处理能力,在保持评估一致性的前提下处理高复杂度推理任务。
常用场景
经典使用场景
在文本到图像生成领域,T2I-CoReBench数据集被广泛用于评估生成模型在复杂组合与推理任务中的表现。该数据集通过涵盖12个评估维度,包括多对象组合、空间关系推理以及逻辑演绎等场景,为研究者提供了系统化的测试框架。其经典使用场景涉及对模型生成图像与文本描述一致性的量化分析,尤其在需要高层次认知能力的任务中展现出色。
解决学术问题
该数据集有效解决了文本到图像生成领域中对模型深层推理能力评估缺失的学术问题。通过构建具有高复杂度提示词(平均170个词元)和多样化推理链条的评估体系,它能够精确识别模型在组合生成与逻辑推理方面的局限性。这一工作推动了生成式AI在认知层面的研究进展,为模型能力边界的探索提供了重要数据支撑。
衍生相关工作
基于T2I-CoReBench的评估范式,研究者开发了多项创新性工作。这些衍生研究包括采用Gemini 2.5 Flash和Qwen2.5-VL-72B等先进评估器的自动化评测系统,以及针对特定推理维度的增强型生成模型。该数据集还促进了多模态推理理论研究的发展,为构建下一代具有深层认知能力的文本到图像系统奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作