GenExam

Name: GenExam
Creator: OpenGVLab
Published: 2025-09-18 10:19:23
License: 暂无描述

Hugging Face2025-09-18 更新2025-09-19 收录

下载链接：

https://huggingface.co/datasets/OpenGVLab/GenExam

下载链接

链接失效反馈

官方服务：

资源简介：

GenExam是一个跨学科的文本到图像考试基准数据集，包含10个学科领域的1000个样本。每个样本都配备了考试风格的提示、真实图像和细粒度的评分点，旨在精确评估语义正确性和视觉合理性。该数据集通过将图像生成作为考试，严格评估模型的知识整合、推理和生成能力，为通用AGI的发展提供了见解。

提供机构：

OpenGVLab

创建时间：

2025-09-17

原始信息汇总

GenExam 数据集概述

基本信息

许可证: MIT
任务类别: 文本到图像生成
语言: 英语
标签: 基准测试、文本到图像、多学科、推理
数据集名称: genexam
规模: 1K<n<10K

数据集简介

GenExam 是首个多学科文本到图像考试基准，包含 1,000 个样本，涵盖 10 个学科，采用四级分类法组织考试式提示。每个问题均配有真实图像和细粒度评分点，用于精确评估语义正确性和视觉合理性。

关键特性

多学科覆盖: 包括数学、物理、化学、生物、地理、计算机、工程、经济、音乐和历史。
评估维度: 语义正确性和视觉合理性。
挑战性: 当前最先进模型严格得分低于 15%，多数模型接近 0%。

评估结果

严格得分

最高分模型: GPT-Image-1（12.1%）
最低分模型: 多数开源模型（0%）

宽松得分

最高分模型: GPT-Image-1（62.6%）
最低分模型: BLIP3o-8B（7.2%）

可视化内容

数据集概述图
模型性能对比图
生成图像示例（数学和音乐学科）

评估指南

详细评估方法请参考代码仓库：https://github.com/OpenGVLab/GenExam

搜集汇总

数据集介绍

构建方式

在跨学科文本到图像生成评估领域，GenExam数据集采用系统化构建方法，涵盖数学、物理、化学等十个学科门类。通过设计具有四层级分类体系的考试风格提示词，精心编制了1000个高质量样本。每个样本均配备真实图像作为标准答案，并附有精细化的评分要点，确保对语义准确性和视觉合理性的精确评估。

使用方法

研究人员可通过HuggingFace平台获取数据集，按照提供的评估指南进行模型测试。使用过程中需重点关注语义正确性和视觉合理性两个维度，参照精细化的评分要点进行客观评估。数据集支持对生成模型的多学科能力进行全面检验，建议结合官方代码库中的评估框架实现标准化测试流程。

背景与挑战

背景概述

在人工智能迈向通用智能的进程中，多模态生成能力成为关键评估维度。GenExam数据集由OpenGVLab团队于2025年创建，作为首个跨学科文本生成图像考试基准，涵盖数学、物理、化学等十大学科共1000个样本。该数据集通过构建四级分类的考试式提示词，配备真实图像答案和精细化评分点，旨在系统评估模型在语义准确性和视觉合理性方面的综合表现。其创新性在于将图像生成任务提升至学术考试级别，为衡量模型的知识整合与推理生成能力提供了全新范式，对推动通用人工智能发展具有重要里程碑意义。

当前挑战

该数据集核心挑战在于解决多学科知识融合的精确图像生成问题，要求模型同时具备跨领域知识理解、逻辑推理和视觉表达能力。构建过程中面临多重挑战：一是需确保10个学科1000个样本的学术准确性和代表性，每个问题需配备专业级真实图像作为标准答案；二是建立四层级分类体系时需保持学科特性和难度均衡；三是设计精细化评分标准时需平衡语义正确性与视觉合理性的量化评估。现有顶级模型严格评分均低于15%，表明其在处理复杂跨学科生成任务时仍存在显著能力缺口。

常用场景

经典使用场景

在跨学科文本到图像生成的研究领域中，GenExam数据集通过模拟真实考试场景构建了严谨的评估框架。该数据集包含数学、物理、化学等10个学科的1000个考试式提示，每个提示均配备真实图像答案和精细化评分标准，能够系统检验模型对复杂文本指令的理解能力、多学科知识的整合能力以及精确的图像生成能力。其经典使用场景包括评估最先进的文本到图像模型在严格考试环境下的综合表现，为模型能力边界提供权威的测量基准。

解决学术问题

GenExam有效解决了多模态人工智能领域长期存在的评估难题，即如何量化模型在知识整合、逻辑推理与图像生成协同作业方面的能力。该数据集通过四层级分类体系和精细评分机制，突破了传统生成基准仅关注视觉概念呈现的局限，为学术研究提供了可量化的评估标准。其意义在于首次将考试范式引入文本到图像生成评估，推动了通用人工智能在复杂认知任务上的研究进程，为模型改进提供了明确的方向性指引。

实际应用

在实际应用层面，GenExam为教育科技、专业培训和数据可视化等领域提供了重要的技术支撑。其考试式的评估框架能够直接应用于智能教育系统的开发，帮助构建具备学科知识可视化能力的教学助手。在专业领域如医学解剖图绘制、工程图纸生成等场景中，该数据集的高标准要求为行业应用提供了可靠性验证依据，确保生成图像在语义准确性和视觉合理性方面满足专业级需求。

数据集最近研究