T2I-CoReBench

Hugging Face2025-09-08 更新2025-09-09 收录

下载链接：

https://huggingface.co/datasets/lioooox/T2I-CoReBench

下载链接

链接失效反馈

官方服务：

资源简介：

T2I-CoReBench是一个用于评估文本到图像模型生成能力的基准数据集，包含组合和推理两个基本生成能力的12个维度。数据集平均提示长度为170个标记，平均问题数量为12.5个。该数据集旨在评估模型在复杂场景下的表现，并包含从简单到高复杂度的不同级别的任务。

创建时间：

2025-09-04

原始信息汇总

T2I-CoReBench 数据集概述

基本信息

许可证: Apache-2.0
任务类别: 文本到图像
语言: 英语
标签: 文本到图像、评估、组合、推理
数据规模: 1K 到 10K 之间
官方名称: T2I-CoReBench

数据集配置

默认配置:
- 组合分割:
  - C.MI: splits/C-MI.jsonl
  - C.MA: splits/C-MA.jsonl
  - C.MR: splits/C-MR.jsonl
  - C.TR: splits/C-TR.jsonl
- 推理分割:
  - R.LR: splits/R-LR.jsonl
  - R.BR: splits/R-BR.jsonl
  - R.HR: splits/R-HR.jsonl
  - R.PR: splits/R-PR.jsonl
  - R.GR: splits/R-GR.jsonl
  - R.AR: splits/R-AR.jsonl
  - R.CR: splits/R-CR.jsonl
  - R.RR: splits/R-RR.jsonl

数据集特点

评估维度: 涵盖 12 个评估维度，分为组合和推理两个基本生成能力
组合能力:
- MI
- MA
- MR
- TR
推理能力:
- 演绎推理: LR、BR、HR、PR
- 归纳推理: GR、AR
- 溯因推理: CR、RR
复杂度: 平均提示长度为 170 个 token，平均包含 12.5 个问题

引用信息

bibtex @article{li2025easier, title={Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?}, author={Li, Ouxiang and Wang, Yuan and Hu, Xinting and Huang, Huijuan and Chen, Rui and Ou, Jiarong and Tao, Xin and Wan, Pengfei and Feng, Fuli}, journal={arXiv preprint arXiv:2509.03516}, year={2025} }

搜集汇总

数据集介绍

构建方式

在文本到图像生成领域，T2I-CoReBench数据集通过精心设计的构建流程，系统性地覆盖了组合与推理两大核心能力。该数据集采用分层抽样策略，从多个维度收集高质量文本提示，并基于复杂场景需求生成对应的图像样本。构建过程中严格遵循语义一致性与视觉合理性原则，确保每个样本均能有效评估模型的多模态理解能力。

特点

T2I-CoReBench数据集展现出显著的结构化特征，其独特之处在于全面涵盖12个评估维度，包括组合能力中的多重实例、属性融合等，以及推理能力中的演绎、归纳与溯因推理。数据集平均提示长度达170个词元，每个样本配备约12.5个检查问题，凸显其高复杂性与深度评估潜力。这种多维设计为文本到图像模型的综合性能提供了精细化测评框架。

使用方法

该数据集的使用需依托其标准化评估流程，研究者可通过加载预定义的JSONL格式数据分片，分别针对组合与推理任务进行模型测试。每个分片对应特定能力维度，用户需根据提示生成图像，并通过配套检查问题验证生成结果的语义一致性与逻辑合理性。数据集支持自动化评估脚本，便于量化模型在不同维度的表现，推动文本到图像生成技术的迭代优化。

背景与挑战

背景概述

文本到图像生成技术作为人工智能领域的前沿研究方向，近年来取得了显著进展。T2I-CoReBench数据集由快手科技与中国科学技术大学等机构的研究团队于2025年联合创建，旨在系统评估生成模型在组合与推理两大核心能力上的表现。该数据集通过构建包含12个维度的评估体系，深入探究模型对复杂文本描述的理解与视觉化能力，为多模态人工智能的发展提供了重要的基准工具。

当前挑战

该数据集主要应对文本到图像生成中组合推理能力的评估挑战，包括模型对多元素组合、逻辑关系推理和抽象概念转化的准确性问题。构建过程中面临标注一致性与复杂度的平衡难题，需要确保每个文本提示包含平均170个令牌的高信息密度，同时维持12.5个评估问题的质量把控。数据集的创建需克服多维度评估体系的设计复杂性，以及不同推理类型（演绎、归纳、溯因）的标准化表征困难。

常用场景

经典使用场景

在文本到图像生成领域，T2I-CoReBench数据集被广泛用于评估生成模型在复杂组合与推理任务中的表现。其经典使用场景包括对多元素组合生成、逻辑关系推理以及抽象概念具象化能力的系统性测试，为研究者提供了标准化评估框架。通过涵盖12个维度的生成能力测试，该数据集能够全面衡量模型在视觉元素组合与多步推理任务中的综合性能。

衍生相关工作

该数据集的发布催生了一系列关于生成模型能力评估的创新研究，包括基于多维度评估的模型对比分析、组合推理能力的增强方法以及新型评估指标的提出。相关衍生工作深入探索了生成模型在复杂语义理解方面的局限性，推动了包括分层评估框架、动态测试集生成等方向的发展，为文本到图像生成领域的评估方法论奠定了重要基础。

数据集最近研究