five

T2I-CoReBench

收藏
Hugging Face2025-09-08 更新2025-09-09 收录
下载链接:
https://huggingface.co/datasets/lioooox/T2I-CoReBench
下载链接
链接失效反馈
官方服务:
资源简介:
T2I-CoReBench是一个用于评估文本到图像模型生成能力的基准数据集,包含组合和推理两个基本生成能力的12个维度。数据集平均提示长度为170个标记,平均问题数量为12.5个。该数据集旨在评估模型在复杂场景下的表现,并包含从简单到高复杂度的不同级别的任务。
创建时间:
2025-09-04
原始信息汇总

T2I-CoReBench 数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别: 文本到图像
  • 语言: 英语
  • 标签: 文本到图像、评估、组合、推理
  • 数据规模: 1K 到 10K 之间
  • 官方名称: T2I-CoReBench

数据集配置

  • 默认配置:
    • 组合分割:
      • C.MI: splits/C-MI.jsonl
      • C.MA: splits/C-MA.jsonl
      • C.MR: splits/C-MR.jsonl
      • C.TR: splits/C-TR.jsonl
    • 推理分割:
      • R.LR: splits/R-LR.jsonl
      • R.BR: splits/R-BR.jsonl
      • R.HR: splits/R-HR.jsonl
      • R.PR: splits/R-PR.jsonl
      • R.GR: splits/R-GR.jsonl
      • R.AR: splits/R-AR.jsonl
      • R.CR: splits/R-CR.jsonl
      • R.RR: splits/R-RR.jsonl

数据集特点

  • 评估维度: 涵盖 12 个评估维度,分为组合和推理两个基本生成能力
  • 组合能力:
    • MI
    • MA
    • MR
    • TR
  • 推理能力:
    • 演绎推理: LR、BR、HR、PR
    • 归纳推理: GR、AR
    • 溯因推理: CR、RR
  • 复杂度: 平均提示长度为 170 个 token,平均包含 12.5 个问题

相关资源

  • 项目页面: https://t2i-corebench.github.io/
  • 论文: arXiv:2509.03516
  • 数据集: https://huggingface.co/datasets/lioooox/T2I-CoReBench
  • 图像数据: https://huggingface.co/datasets/lioooox/T2I-CoReBench-Images
  • 代码: https://github.com/KwaiVGI/T2I-CoReBench

引用信息

bibtex @article{li2025easier, title={Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?}, author={Li, Ouxiang and Wang, Yuan and Hu, Xinting and Huang, Huijuan and Chen, Rui and Ou, Jiarong and Tao, Xin and Wan, Pengfei and Feng, Fuli}, journal={arXiv preprint arXiv:2509.03516}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在文本到图像生成领域,T2I-CoReBench数据集通过精心设计的构建流程,系统性地覆盖了组合与推理两大核心能力。该数据集采用分层抽样策略,从多个维度收集高质量文本提示,并基于复杂场景需求生成对应的图像样本。构建过程中严格遵循语义一致性与视觉合理性原则,确保每个样本均能有效评估模型的多模态理解能力。
特点
T2I-CoReBench数据集展现出显著的结构化特征,其独特之处在于全面涵盖12个评估维度,包括组合能力中的多重实例、属性融合等,以及推理能力中的演绎、归纳与溯因推理。数据集平均提示长度达170个词元,每个样本配备约12.5个检查问题,凸显其高复杂性与深度评估潜力。这种多维设计为文本到图像模型的综合性能提供了精细化测评框架。
使用方法
该数据集的使用需依托其标准化评估流程,研究者可通过加载预定义的JSONL格式数据分片,分别针对组合与推理任务进行模型测试。每个分片对应特定能力维度,用户需根据提示生成图像,并通过配套检查问题验证生成结果的语义一致性与逻辑合理性。数据集支持自动化评估脚本,便于量化模型在不同维度的表现,推动文本到图像生成技术的迭代优化。
背景与挑战
背景概述
文本到图像生成技术作为人工智能领域的前沿研究方向,近年来取得了显著进展。T2I-CoReBench数据集由快手科技与中国科学技术大学等机构的研究团队于2025年联合创建,旨在系统评估生成模型在组合与推理两大核心能力上的表现。该数据集通过构建包含12个维度的评估体系,深入探究模型对复杂文本描述的理解与视觉化能力,为多模态人工智能的发展提供了重要的基准工具。
当前挑战
该数据集主要应对文本到图像生成中组合推理能力的评估挑战,包括模型对多元素组合、逻辑关系推理和抽象概念转化的准确性问题。构建过程中面临标注一致性与复杂度的平衡难题,需要确保每个文本提示包含平均170个令牌的高信息密度,同时维持12.5个评估问题的质量把控。数据集的创建需克服多维度评估体系的设计复杂性,以及不同推理类型(演绎、归纳、溯因)的标准化表征困难。
常用场景
经典使用场景
在文本到图像生成领域,T2I-CoReBench数据集被广泛用于评估生成模型在复杂组合与推理任务中的表现。其经典使用场景包括对多元素组合生成、逻辑关系推理以及抽象概念具象化能力的系统性测试,为研究者提供了标准化评估框架。通过涵盖12个维度的生成能力测试,该数据集能够全面衡量模型在视觉元素组合与多步推理任务中的综合性能。
衍生相关工作
该数据集的发布催生了一系列关于生成模型能力评估的创新研究,包括基于多维度评估的模型对比分析、组合推理能力的增强方法以及新型评估指标的提出。相关衍生工作深入探索了生成模型在复杂语义理解方面的局限性,推动了包括分层评估框架、动态测试集生成等方向的发展,为文本到图像生成领域的评估方法论奠定了重要基础。
数据集最近研究
最新研究方向
在文本到图像生成领域,T2I-CoReBench数据集正推动对生成模型组合与推理能力的深度评估。当前研究聚焦于突破传统单一对象生成的局限,探索多元素复杂组合(如C.MI、C.MA等维度)及多层次逻辑推理(包括演绎、归纳与溯因推理)的生成质量。该数据集通过12个精细化维度,平均170个令牌的提示长度和12.5个检查问题,显著提升了评估复杂性,为揭示模型在语义理解与逻辑连贯性方面的瓶颈提供了关键工具。其与多模态大模型发展的联动,正促进生成式AI在艺术创作、虚拟场景构建等应用中的可靠性突破,成为衡量模型认知能力的重要基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作