WorldGenBench
收藏arXiv2025-05-03 更新2025-05-07 收录
下载链接:
https://dwanzhang-ai.github.io/WorldGenBench/
下载链接
链接失效反馈官方服务:
资源简介:
WorldGenBench是一个用于评估文本到图像生成模型在理解世界知识和进行隐式推理能力方面的基准。数据集由1072个文本到图像的提示组成,分为人文和自然两个领域。每个提示都配有一个知识清单,用于评估模型生成图像的准确性。该数据集旨在解决现有模型在处理需要丰富世界知识和隐式推理的提示时的局限性问题。
WorldGenBench is a benchmark designed to evaluate the capability of text-to-image generation models in comprehending world knowledge and conducting implicit reasoning. The dataset comprises 1072 text-to-image prompts, categorized into two domains: humanities and natural sciences. Each prompt is accompanied by a knowledge checklist to assess the accuracy of the images generated by the models. This dataset aims to address the limitations of existing text-to-image models when handling prompts that require rich world knowledge and implicit reasoning.
提供机构:
南方科技大学
创建时间:
2025-05-03
原始信息汇总
WorldGenBench 数据集概述
基本信息
- 数据集名称: WorldGenBench
- 开发团队:
- Daoan Zhang1, Che Jiang3, Ruoshi Xu3, Biaoxiang Chen3, Zijian Jin4, Yutian Lu5
- Jianguo Zhang3, Liang Yong2, Jiebo Luo1, Shengda Luo2,3
- 机构: 1University of Rochester, 2Chinese Medicine Guangdong Laboratory, 3Southern University of Science and Technology
- 4New York University, 5Datawhale org.
数据集简介
- 目的: 评估文本到图像(T2I)生成模型的世界知识基础和隐式推理能力
- 特点:
- 覆盖人文和自然两大领域
- 提出"知识检查表分数"(Knowledge Checklist Score)作为结构化评估指标
- 实验发现:
- 扩散模型在开源方法中领先
- GPT-4o等专有自回归模型展现出更强的推理和知识整合能力
数据集内容
- 人文领域:
- 覆盖244个国家/地区
- 每个国家3个提示,共732个提示
- 主题: 历史、文化等
- 自然领域:
- 6个学科(天文学、物理学等)
- 共340个评估提示
- 质量控制: 所有提示经过人工验证以确保事实准确性和逻辑一致性
评估结果
- 人文领域表现最佳模型:
- GPT-4o (平均分24.46)
- HiDream-l1-Full (平均分16.68)
- SDv3.5-Large (平均分12.57)
- 自然领域表现最佳模型:
- GPT-4o (平均分19.61)
- Ideogram 2.0 (平均分9.34)
- SDv3.5-Large (平均分7.93)
数据示例
- 提示示例:
"In December 1982, deep in the rainforest of the Moumba province in western Gabon, a honey collector from the Miéné tribe was engaged in the traditional collection of wild honey..."
搜集汇总
数据集介绍

构建方式
WorldGenBench的构建过程体现了对跨学科知识的深度整合与严谨验证。该数据集采用两阶段生成策略:首先基于大型语言模型生成覆盖244个国家/地区的732个人文类提示(历史、文化主题)和6个自然科学学科的340个提示(天文、物理等),随后通过人工验证确保事实准确性与逻辑一致性。每个提示均配有结构化知识检查清单,由专家团队根据领域知识设计关键语义要素,形成可量化的评估标准。数据集构建流程特别强调地理与学科分布的均衡性,采用GPT-4o进行自动化评估时,通过严格的多轮视觉证据验证机制确保评分客观性。
特点
该数据集的核心特征在于其首创的知识检查清单评估体系。区别于传统文本-图像对齐指标,WorldGenBench通过1072个提示及其对应的细粒度检查项(如'巴米扬大佛遗迹应显示爆破痕迹'),系统评估模型的世界知识整合与隐式推理能力。数据集涵盖人文与自然科学两大领域,其中人文部分包含七大洲文化场景,自然科学部分涉及电磁感应曲线、酸碱滴定等专业图示。每个检查项均附带解释说明,形成可追溯的评估链条。实验数据表明,该基准能有效区分不同模型的知识掌握程度,如GPT-4o在人文和自然科学领域分别达到24.46和19.61的领先分数。
使用方法
使用该数据集需遵循知识检查清单驱动的评估范式。研究者首先用目标文本生成模型处理提示词,生成图像后输入评估系统。GPT-4o作为评估引擎,会严格比对图像内容与检查清单的每一项要求(如'哈扎拉族传统服饰特征'或'滴定曲线缓冲区斜率变化'),仅当视觉证据完全符合解释说明时判定为满足。最终得分为满足项占总项数的百分比,标准化为0-100分制。为保障评估可靠性,系统设置反向验证机制:对初步判定为满足的项再次核查,防止主观推断。数据集提供标准化输出格式,支持跨模型性能对比分析。
背景与挑战
背景概述
WorldGenBench是由南方科技大学、罗切斯特大学等机构的研究团队于2025年提出的文本到图像生成领域的创新性基准测试。该数据集旨在系统评估T2I模型的世界知识整合与隐式推理能力,覆盖人文与自然科学两大领域。研究团队创新性地提出了知识清单评分(Knowledge Checklist Score)这一结构化评估指标,通过对21个前沿模型的实验分析,揭示了当前生成模型在深层次语义理解方面的局限性。这一基准的建立标志着文本到图像生成评估从表面特征匹配向知识驱动的深层次理解的重要转变,为后续模型开发提供了新的研究方向。
当前挑战
WorldGenBench面临的核心挑战主要体现在两个方面:在领域问题层面,现有T2I模型难以处理需要复杂世界知识和隐式推理的提示词,导致生成图像常出现时代错乱、文化误读或科学事实错误等问题;在构建过程中,研究团队需克服跨学科知识验证的困难,包括确保244个国家地区文化特征的准确性,以及处理天文学、物理学等专业领域的严谨性要求。此外,设计可量化的知识清单评分体系时,需平衡评估的严格性与实际可行性,避免主观判断带来的偏差。这些挑战反映了当前生成式AI在深层次理解与推理能力上的关键瓶颈。
常用场景
经典使用场景
WorldGenBench作为文本到图像生成领域的基准测试,主要用于评估模型在复杂场景下结合世界知识和隐式推理的能力。其经典使用场景包括生成需要深厚文化背景或科学知识的图像,例如历史场景重建或科学示意图绘制。数据集通过精心设计的提示词和知识检查清单,系统性地检验模型对隐含信息的理解能力,如根据'2001年巴米扬大佛遗址'的提示生成符合历史事实的图像。
解决学术问题
该数据集有效解决了文本到图像生成领域两个关键学术问题:世界知识整合不足和隐式推理能力欠缺。通过构建覆盖人文与自然科学领域的1072个测试案例,研究者能够量化评估模型在文化常识、历史事件、物理规律等方面的知识掌握程度。知识检查清单评分机制突破了传统图像质量评估的局限,为衡量生成内容的语义准确性提供了结构化标准。
衍生相关工作
该数据集已催生多项创新研究,包括知识增强的扩散模型架构改进、基于逻辑约束的生成方法等。部分工作聚焦于将检查清单机制融入训练流程,如HiDream团队提出的知识对齐损失函数。GPT-4o在该基准的优异表现启发了多模态大模型的知识注入研究,而开源的PixArt-alpha等模型则通过WorldGenBench验证了领域适应技术的有效性。
以上内容由遇见数据集搜集并总结生成



