SciGenBench

github2026-01-27 更新2026-01-28 收录

下载链接：

https://github.com/SciGenBench/SciGenBench

下载链接

链接失效反馈

官方服务：

资源简介：

SciGenBench是一个用于科学图像生成的大规模基准测试，包含1.4K个问题，涵盖5个主要领域（数学、物理、化学、生物、通用）和25种图像类型。它通过信息效用（逆向测验验证）和逻辑正确性（LMM-as-Judge）两个核心维度评估科学图像生成的质量。

SciGenBench is a large-scale benchmark for scientific image generation. It includes 1.4K questions, covering 5 major domains (Mathematics, Physics, Chemistry, Biology, General) and 25 image types. It evaluates the quality of scientific image generation from two core dimensions: informative utility (reverse test validation) and logical correctness (LMM-as-Judge).

创建时间：

2026-01-11

原始信息汇总

SciGenBench 数据集概述

数据集简介

SciGenBench 是一个用于科学图像生成的基准测试。该基准旨在解决现有文本到图像（T2I）模型生成的图像视觉上合理但科学上不正确的问题，从而弥合视觉与逻辑之间的差异，以提升其在下游推理任务中的价值。

核心构成

基准规模：包含 1.4K 个问题。
覆盖领域：涵盖 5 个主要学科领域，包括数学、物理、化学、生物学和通用图表。
图像类型：细分为 25 种图像类型。
数据划分：包含 SciGen 和 SeePhys 两个子集，其中 SeePhys 包含真实的科学图像。

评估维度

SciGenBench 从两个核心维度评估科学图像生成：

信息效用：通过逆向测验验证进行评估。
逻辑正确性：通过 LMM-as-Judge 进行评估。

评估指标

R<sub>inv</sub>：逆向验证率，评估生成图像本身是否足以正确回答原始科学问题。
LMM-as-Judge：从正确性与保真度、布局与精度、可读性与遮挡、科学合理性、表现力与丰富度五个方面进行0-2分评分。
标准图像指标：在 SeePhys 真实图像子集上计算 PSNR、SSIM、CLIP 和 FID。

项目结构

数据集与代码库结构紧密相关，主要目录如下：

data/：存放数据集和基准测试元数据。
images/：存放生成的图像。
results/：存放评估输出结果。
src/：包含核心源代码，用于图像生成和评估。

使用方式

可通过提供的 run.py 脚本进行数据生成与评估。

安装：克隆代码库并安装依赖。
生成与评估：支持指定数据集、模型和模式（生成、评估或全部）进行操作。
输出：生成的图像和评估结果将分别保存在 images/ 和 results/ 目录下。

相关资源

论文地址：https://arxiv.org/abs/2601.17027/
项目主页：https://scigenbench.github.io/
Hugging Face 数据集合：https://huggingface.co/collections/J017athan/scigenbench
模型输出展示：https://hub.zenoml.com/project/b468f508-6492-40f2-8ff3-9db8db44c1b7/SciGenBench
许可证：代码库采用 GitHub 许可证。

搜集汇总

数据集介绍

构建方式

在科学图像生成领域，构建高质量基准数据集对于评估模型性能至关重要。SciGenBench的构建遵循系统性原则，涵盖数学、物理、化学、生物及通用图表五大核心学科领域，细分为25种图像类型，总计包含1.4千个科学问题。该数据集通过混合评估协议整合了逆向测验验证与大语言模型作为评判者的双重机制，确保生成图像在信息效用与逻辑正确性两个维度上得到严谨量化。数据采集过程注重科学严谨性，结合真实图像子集与合成生成内容，为多模态推理研究提供了坚实的数据基础。

特点

SciGenBench的显著特征在于其多维度的评估体系与广泛的学科覆盖。该基准不仅关注生成图像的视觉逼真度，更强调其科学正确性与逻辑一致性，通过逆向验证率与多维度人工评判指标深入解析图像的信息承载能力。数据集涵盖从几何图形到分子结构的多样科学图示类型，体现了跨学科的综合性与专业性。其评估框架揭示了像素生成与程序化合成之间的表达精度权衡，并系统归纳了五类常见生成缺陷，为后续方法优化提供了明确方向。

使用方法

使用SciGenBench需遵循其开源代码库提供的标准化流程。研究人员可通过配置相应API密钥，利用统一入口脚本调用不同图像生成模型进行推理与评估。数据集支持全流程自动化操作，包括图像生成、多指标评估及结果可视化，输出结构清晰划分图像存储与评分结果。用户可灵活选择特定学科子集或评估维度，适配多样化研究需求。该基准的模块化设计便于集成新模型与方法，推动科学图像生成技术的迭代与创新。

背景与挑战

背景概述

在人工智能迈向多模态融合的进程中，科学图像的合成与理解成为关键瓶颈。现有文本到图像模型虽能生成视觉上逼真的内容，却常因缺乏严格的科学逻辑而无法支撑深层次的推理任务。为应对这一挑战，研究团队于2026年提出了SciGenBench基准，该基准由Honglin Lin等学者共同构建，旨在系统评估科学图像生成的正确性与实用性。它涵盖了数学、物理、化学、生物及通用图表五大领域的1400个问题，通过引入ImgCoder等逻辑驱动框架，致力于弥合视觉呈现与科学严谨性之间的鸿沟，为提升大型多模态模型的科学推理能力奠定了新的数据基础。

当前挑战

SciGenBench所应对的核心挑战在于解决科学图像生成中普遍存在的视觉-逻辑分歧问题，即模型生成图像虽具视觉吸引力，但科学内容常存在谬误，难以直接用于严谨的多模态推理。在构建过程中，挑战具体体现在两方面：一是设计能够同时评估信息效用与逻辑正确性的混合评测协议，需平衡自动化评估与人工验证的精度；二是大规模收集与标注涵盖多学科、多图像类型的科学问题，并确保其格式统一且符合程序化合成的要求，这对数据集的代表性与可扩展性提出了较高标准。

常用场景

经典使用场景

在科学图像生成领域，SciGenBench作为一个综合性基准测试平台，其经典使用场景主要体现在对多模态生成模型的系统性评估与比较。该数据集通过涵盖数学、物理、化学、生物学及通用图表五大核心学科领域，共计25种精细图像类型，为研究者提供了一个结构化的测试环境。在此场景下，各类文本到图像生成模型，无论是基于像素的直接生成范式，还是程序化合成方法，均需在信息效用与逻辑正确性两个维度接受严格检验。这种评估不仅揭示了模型在生成科学图像时普遍存在的视觉-逻辑偏差问题，更为后续的方法优化指明了方向。

解决学术问题

SciGenBench的构建，旨在应对科学图像合成中长期存在的核心学术挑战：即如何确保生成图像在视觉逼真之外，具备严格的科学正确性与逻辑一致性。传统文本到图像模型往往产生科学上不准确的输出，导致下游多模态推理任务受限。该数据集通过引入逆向测验验证与大型多模态模型作为评判者的混合评估协议，系统性地量化了生成图像的信息保真度与逻辑有效性。它解决了评估科学图像生成质量缺乏标准化、可量化基准的难题，为探索生成范式间的表达力-精度权衡关系提供了实证基础，从而推动了该领域从定性描述向定量分析的范式转变。

衍生相关工作

围绕SciGenBench数据集，已衍生出一系列具有影响力的经典研究工作。其核心贡献ImgCoder框架，作为一种遵循‘理解-规划-编码’逻辑的程序化合成范式，为结构精确的科学图表生成设立了新标准，并启发了后续对可解释、可验证生成路径的探索。该基准的评估结果系统揭示了像素基模型存在的五类系统性失败模式，这一分析直接推动了生成模型鲁棒性研究。更重要的是，基于SciGenBench验证的合成数据已被证明能够遵循对数线性规律，有效提升大型多模态模型在GEO3K、MathVision等科学推理基准上的性能，这一发现类比了文本领域的缩放定律，为利用合成数据规模化扩展多模态模型能力提供了关键实证，引领了后续关于多模态数据合成与模型训练效率的研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集