five

WISE

收藏
github2025-03-15 更新2025-03-12 收录
下载链接:
https://github.com/PKU-YuanGroup/WISE
下载链接
链接失效反馈
官方服务:
资源简介:
WISE是第一个专门为世界知识感知语义评估设计的基准,挑战模型在文化常识、时空理解和自然科学等25个子领域的1000个精心设计的提示。

WISE is the first benchmark specifically designed for world knowledge-aware semantic evaluation, which includes 1000 meticulously crafted prompts that challenge models' capabilities across 25 sub-fields such as cultural common sense, spatio-temporal understanding, natural sciences, and more.
创建时间:
2025-03-10
原始信息汇总

WISE 数据集概述

📌 数据集简介

  • 名称: WISE (World Knowledge-Informed Semantic Evaluation)
  • 类型: 文本到图像生成评估基准
  • 目的: 评估文本到图像模型在复杂语义理解和世界知识整合方面的能力

📚 数据集内容

  • 提示词数量: 1000个
  • 覆盖领域:
    • 文化常识
    • 时空推理
    • 自然科学(生物学、物理学、化学)
  • 子领域数量: 25个

🏗️ 评估框架

  1. 提示生成: 精心设计1000个提示词
  2. 图像生成: 使用20种不同文本到图像模型生成图像
    • 10种专用T2I模型
    • 10种统一多模态模型
  3. GPT-4o评估:
    • 评估维度: 一致性、真实感、美学质量
    • 评分范围: 0-2
  4. WiScore计算:
    • 公式: WiScore = (0.7 * Consistency) + (0.2 * Realism) + (0.1 * Aesthetic Quality)

🏆 评估结果

专用T2I模型表现

  • 最佳模型: FLUX.1-dev (总体WiScore: 0.50)
  • 领域表现:
    • 文化常识: playground-v2.5 (0.49)
    • 时间: FLUX.1-dev (0.58)
    • 空间: FLUX.1-dev (0.62)
    • 生物学: PixArt-Alpha (0.49)
    • 物理学: PixArt-Alpha (0.56)
    • 化学: FLUX.1-dev (0.35)

统一多模态模型表现

  • 最佳模型: Liquid和Harmon-1.5B (总体WiScore: 0.41)
  • 领域表现:
    • 文化常识: Liquid (0.38)
    • 时间: Harmon-1.5B (0.48)
    • 空间: Liquid (0.53)
    • 生物学: Emu3 (0.41)
    • 物理学: Liquid (0.47)
    • 化学: Liquid和show-o-demo-512 (0.30)

📄 论文信息

  • 标题: WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation
  • 作者: Niu, Yuwei等
  • 预印本: arXiv:2503.07265
  • 年份: 2025

📧 联系方式

  • 联系人: Yuwei Niu
  • 邮箱: niuyuwei04@gmail.com
搜集汇总
数据集介绍
main_image_url
构建方式
WISE数据集的构建采用了精心设计的1000个提示,这些提示涵盖了文化常识、时空推理和自然科学等25个子领域。每个提示被送入20种不同的文本到图像(Text-to-Image,T2I)模型中生成相应的图像。为了评估这些图像,研究团队使用了GPT-4o-2024-05-13模型对图像的连贯性、真实性和美学质量进行独立评估和打分,最终基于这些评分计算出WiScore,以全面评估模型在生成世界知识信息图像方面的能力。
特点
WISE数据集的特点在于其专注于评估文本到图像模型在复杂语义理解和世界知识融合方面的性能。它包含了跨多个子领域的精心设计的提示,这些提示能够挑战模型在文化常识、时空理解和自然科学领域的知识应用。此外,WISE引入了WiScore这一新颖的定量度量标准,用于评估知识图像对齐程度,从而为T2I模型的性能评估提供了更为全面和深入的方法。
使用方法
使用WISE数据集时,用户需要首先生成与提示相对应的图像,接着利用GPT-4o模型对生成的图像进行评分,最后根据WiScore计算公式得出综合评分。这一过程不仅要求模型能够生成高质量的图像,还要求图像能够准确反映提示中的世界知识,从而全面评估模型在图像生成任务中的表现。
背景与挑战
背景概述
WISE数据集,诞生于2025年,旨在推动文本到图像(Text-to-Image,简称T2I)模型在复杂语义理解和世界知识融合方面的评估与发展。该数据集由一系列精心设计的提示组成,涵盖了文化常识、时空理解以及自然科学等25个子领域。WISE的提出,是对现有研究评价标准的补充,特别是在图像现实主义和浅层文本图像对齐之外,对模型在复杂语义理解和世界知识整合方面的能力进行了深入探讨。该数据集由相关领域的研究人员精心打造,对于提升T2I模型在知识融合和应用方面的研究具有显著影响。
当前挑战
WISE数据集在构建过程中,面临了多方面的挑战。首先,如何准确构建能全面评估复杂语义理解和世界知识融合的提示,是一大挑战。其次,传统的CLIP指标在评估知识图像对齐方面存在局限,因此研究者们引入了WiScore这一新的量化指标。此外,通过对20种模型使用1000个结构化提示的全面测试,发现现有模型在有效整合和应用世界知识方面存在显著不足,这为下一代T2I模型在知识融合和应用方面的改进指明了方向。
常用场景
经典使用场景
WISE数据集针对文本到图像生成模型在复杂语义理解和世界知识融合方面的评估提出挑战,其经典使用场景在于为T2I模型提供包含文化常识、时空推理和自然科学等25个子领域的1000个精心设计的提示,以检验模型在这些领域的知识整合和应用能力。
解决学术问题
该数据集解决了传统评估指标如CLIP在评估图像生成模型时对世界知识融合能力缺乏考量的问题,通过引入WiScore这一新颖定量指标,为模型在图像生成中的知识整合和应用提供了全面评估,有助于推动T2I模型向更高层次的知识融合方向发展。
衍生相关工作
WISE数据集的发布促进了相关领域的研究,如基于该数据集的性能评估框架、模型改进策略以及新的知识融合方法等,为后续的研究提供了坚实的基础和丰富的灵感来源。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作