GenExam

github2025-09-18 更新2025-09-19 收录

下载链接：

https://github.com/OpenGVLab/GenExam

下载链接

链接失效反馈

官方服务：

资源简介：

GenExam是第一个多学科文本到图像考试的基准，包含10个学科的1000个样本，采用四级分类法组织考试式提示。每个问题都配备了真实图像和细粒度评分点，以实现对语义正确性和视觉合理性的精确评估。

GenExam is the first multidisciplinary text-to-image examination benchmark, which contains 1,000 samples across 10 disciplines, with exam-style prompts organized via a four-level classification framework. Each question is paired with ground-truth images and fine-grained scoring criteria, enabling precise evaluation of semantic correctness and visual plausibility.

创建时间：

2025-09-16

原始信息汇总

GenExam 数据集概述

数据集简介

GenExam 是首个多学科文本到图像考试基准，包含 1000 个样本，涵盖 10 个学科，采用四级分类法组织考试式提示。每个问题配备真实图像和细粒度评分点，用于精确评估语义正确性和视觉合理性。

数据集特点

学科范围：数学、物理、化学、生物、地理、计算机、工程、经济、音乐、历史
样本数量：1000 个
评估维度：语义正确性、拼写、可读性、逻辑一致性
评分标准：严格分数和宽松分数

数据获取

数据存储位置：data/ 目录
下载地址：https://huggingface.co/datasets/OpenGVLab/GenExam/resolve/main/GenExam_data.zip?download=true
按分类组织的图像：https://huggingface.co/datasets/OpenGVLab/GenExam/resolve/main/images_by_taxonomy.zip?download=true

评估结果

严格分数排名（前五名）

GPT-Image-1：12.1%
Seedream 4.0：7.2%
Imagen-4-Ultra：6.9%
Gemini-2.5-Flash-Image：3.9%
Seedream 3.0：0.2%

宽松分数排名（前五名）

GPT-Image-1：62.6%
Gemini-2.5-Flash-Image：55.9%
Imagen-4-Ultra：53.4%
Seedream 4.0：53.0%
FLUX.1 Kontext max：28.5%

使用说明

环境要求

Python 依赖：requests, tqdm, pillow
需要设置 OpenAI API 密钥

评估流程

离线生成图像并保存至 gen_imgs/ 目录
运行评估脚本：python run_eval.py
计算分数：python cal_score.py

加速评估

支持分片评估，可通过 --start_index 和 --end_index 参数并行运行

许可证

MIT 许可证

引用

bibtex @article{GenExam, title={GenExam: A Multidisciplinary Text-to-Image Exam}, author = {Wang, Zhaokai and Yin, Penghao and Zhao, Xiangyu and Tian, Changyao and Qiao, Yu and Wang, Wenhai and Dai, Jifeng and Luo, Gen}, journal={arXiv preprint arXiv:2509.14232}, year={2025} }

搜集汇总

数据集介绍

构建方式

在跨学科文本到图像生成评估领域，GenExam数据集通过精心设计的四层级分类体系构建而成，涵盖数学、物理、化学等十个学科共1000个样本。每个样本均配备符合考试风格的文本提示词，并辅以真实图像作为标准答案，同时提供细粒度的评分要点以确保评估的精确性。数据集的构建过程注重语义正确性与视觉合理性的双重验证，为模型能力评估奠定了严谨的基础。

使用方法

使用者可通过Huggingface平台获取数据集文件，按照提供的评估脚本进行离线或在线推理。评估过程需先生成对应提示词的图像，随后通过自动化脚本计算四个维度的得分并生成详细报告。数据集支持分块评估以提升效率，同时提供迷你子集用于快速验证。评估结果可精确反映模型在多学科场景下的生成能力，为研究提供可量化的性能指标。

背景与挑战

背景概述

在人工智能迈向通用智能的进程中，多模态生成能力成为关键评估维度。GenExam数据集由OpenGVLab团队于2025年创建，作为首个跨学科文本到图像考试基准，涵盖数学、物理、化学等10个学科的1000个样本。该数据集通过四层级分类体系组织考题，每道题目配备真实图像答案和精细化评分标准，旨在系统评估模型在知识整合、逻辑推理与视觉生成方面的综合能力。其创新性在于将图像生成任务提升至学术考试级别，为AGI发展提供了前所未有的严谨评估框架。

当前挑战

该数据集核心挑战在于解决多学科知识可视化生成的精确性问题，要求模型同时保证语义正确性、视觉合理性和逻辑一致性。构建过程中面临多重挑战：一是跨学科知识标注需要领域专家深度参与，确保评分标准的科学性与权威性；二是考试式提示词的设计需平衡专业性与生成自由度；三是真实图像答案的收集需兼顾版权合规与质量统一；四是评估体系需建立兼顾严格评分与宽松评分的多维度量标准，以准确反映模型在不同难度层级下的性能表现。

常用场景

经典使用场景

在跨学科文本到图像生成研究领域，GenExam数据集被广泛用于评估多模态模型在复杂知识整合与视觉表达方面的能力。该数据集通过涵盖数学、物理、化学等10个学科的考试式提示，要求模型不仅理解专业术语的语义内涵，还需生成符合学科规范的精确图像表达，例如绘制化学反应装置示意图或地理地形剖面图。这种评估方式能够系统检验模型在知识推理、语义对齐和视觉生成三个维度的综合性能，为研究者提供标准化的性能基准。

解决学术问题

GenExam有效解决了多模态生成模型评估中存在的语义粒度粗糙和学科特异性缺失问题。传统文本到图像基准多关注通用场景的视觉真实性，而该数据集通过设计四级分类体系和精细评分标准，首次实现了对学科知识准确性与视觉合理性的量化评估。其严格评分机制揭示了当前最先进模型在专业领域图像生成中存在显著缺陷，例如在数学公式渲染和音乐符号绘制方面接近零分表现，这为推动模型在知识密集型生成任务上的进步提供了明确方向。

实际应用

该数据集的实际应用价值体现在智能教育系统的开发与优化过程中。基于GenExam构建的评估体系能够指导教育科技企业开发具备学科知识可视化能力的教学助手，例如自动生成物理实验示意图或生物解剖图谱。同时，在专业培训领域，该数据集可用于构建医疗诊断图像生成系统或工程设计草图自动生成工具，确保生成结果既符合专业规范又保持视觉准确性，为行业应用提供可靠的技术验证基准。

数据集最近研究