SridBench

Name: SridBench
Creator: Curated by human experts and MLLMs
License: 暂无描述

arXiv2025-09-30 收录

下载链接：

https://www.nature.com/nature/reviews-and-analysis

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为SridBench，是首个针对科学图表生成的基准测试，包含了来自13个自然科学和计算机科学领域的领先学术论文中的1,120个实例。这些实例在六个维度上进行评估，包括语义保真度和结构准确性。此外，该数据集还包括了在九个计算机科学方向中各选取的100个三元组，以及来自《自然》杂志最新评论和分析部分的220个三元组，确保了数据的质量、时效性和多样性。该数据集的规模为1,120个实例，其任务是科学插图生成。

This dataset, named SridBench, is the first benchmark dedicated to scientific diagram generation. It comprises 1,120 instances in total, sourced from leading academic papers across 13 disciplines of natural sciences and computer science. These instances are evaluated on six dimensions, including semantic fidelity and structural accuracy. Specifically, the 1,120 instances consist of 100 triplets selected from each of nine computer science subfields, as well as 220 triplets from the latest review and analysis sections of *Nature*, which ensures the dataset's quality, timeliness, and diversity. The core task of this benchmark is scientific illustration generation.

提供机构：

Curated by human experts and MLLMs

搜集汇总

数据集介绍

构建方式

科学插图在学术传播中扮演着不可或缺的角色，然而其绘制过程耗时费力，亟待自动化解决方案的介入。为填补这一评估空白，SridBench应运而生，成为首个专为评估多模态模型在科研插图生成任务中表现而设计的基准数据集。该数据集从权威科学论文网站（如arXiv与Nature）中精心采集，覆盖自然科学与计算机科学两大领域下的13个学科方向。构建过程结合了人类专家与多模态大语言模型（MLLM）的协同筛选：首先利用MLLM对论文中的插图进行初步过滤，剔除实拍照片、实验结果图与统计分析图，仅保留概念图、模型框架图、流程图与结构图等学术示意图；随后提取对应的图像标题与相关章节文本，形成结构化的三元组数据（图像、标题、章节）。人类专家进一步对所有三元组进行严格审核，确保图像清晰、科学严谨且具备表现力，文本则需完整支撑插图所包含的元素。最终经此层层把关，共获得1,120个高质量实例，为系统评估模型生成能力奠定了坚实的数据基础。

特点

SridBench数据集在多个维度上展现出独特优势。首先，其覆盖的学科范围极为广泛，横跨计算机科学（如软件工程、机器人学、计算机视觉等9个方向）与自然科学（如物理学、有机化学、生物结构等4个方向），确保了评估任务的多样性与代表性。其次，每个样本均附有来自顶级期刊与会议论文的原始图像、精确的标题以及对应的章节文本，这种三元组结构为模型提供了丰富的上下文信息，使其能够基于严谨的学术描述进行生成。更为关键的是，数据集设计了六维评估指标体系，分别从文本信息完整性、文本信息准确性、图形结构完整性、图形逻辑性、认知可读性与美学感受出发，对生成结果进行1至5分的精细化评分。这一多维度评价框架不仅支持人类专家评审，也可通过MLLM实现自动化评分，兼具客观性与可扩展性。

使用方法

SridBench的使用流程清晰且系统化，旨在全面衡量图像生成模型的科研绘图能力。研究者首先从数据集中获取每个样本的三元组信息，包括目标插图、其标题以及所在章节的完整文本。随后，将标题与章节文本填充至精心设计的提示模板中，作为输入发送给待评估的图像生成模型（如GPT-4o-image、Gemini-2.0-Flash或Emu-3），模型据此生成对应的科研插图。生成完成后，利用多模态大语言模型（实验表明GPT-4o的评分与人类专家高度一致）对生成图像与原始参考图像进行对比，依据六维指标体系逐项打分。整个过程可通过API实现批量自动化处理，支持大规模实验。此外，数据集还可用于分析模型在不同学科、不同插图类型（如流程图、结构图等）上的表现差异，为后续模型优化提供针对性指导。

背景与挑战

背景概述

在人工智能驱动的图像生成技术迅猛发展的背景下，从早期基于扩散模型的感知质量优化，到如今多模态模型（如GPT-4o-image）将高层次推理融入生成过程，图像生成正朝着语义理解与结构组合能力更强的方向演进。科学研究插图的生成作为这一前沿领域的关键任务，要求模型能够准确解读复杂的技术描述，并将抽象结构转化为清晰、规范的视觉呈现，其知识密集程度远超普通图像合成。然而，据调查，制作一张研究图表通常需要数小时的人工操作，且依赖昂贵的软件工具和反复修改。为系统评估多模态模型在此任务上的表现，Yifan Chang、Yukang Feng等研究者于2025年创建了SridBench，这是首个专门评估科学插图生成能力的基准数据集。该数据集包含1120个实例，覆盖自然科学与计算机科学下的13个学科，由人类专家与多模态大语言模型从权威论文网站筛选而来，并沿语义保真度、结构准确性等六个维度进行评估。SridBench的提出填补了该领域系统性评估框架的空白，为衡量生成模型在强推理场景中的表现提供了重要标尺。

当前挑战

SridBench所面临的挑战首先体现在其核心领域问题上：科学插图生成任务要求模型具备深层次的语义理解与结构推理能力，而当前模型（即便如GPT-4o-image）在语义保真度和结构准确性上仍远未达到人类专家水平，尤其在文本信息的完整性与准确性、图表逻辑的严谨性以及认知可读性方面存在显著短板。其次，在数据集构建过程中，挑战同样严峻：需从海量论文中精确筛选出符合科学严谨性、表达清晰度的示意图，并排除实验结果图、统计图等无关类型；同时，需从TeX源文件中准确提取与插图对应的章节文字和公式，确保文本信息能够充分支撑插图的生成；此外，覆盖13个学科的数据需要领域专家的逐条审核，以保证数据的权威性与多样性，这一过程耗时费力且对专家知识要求极高。

常用场景

经典使用场景

在学术论文撰写与科学传播领域，科研示意图的绘制长期依赖研究者手动完成，耗时费力且对专业知识与设计工具要求极高。SridBench作为首个系统性评估多模态模型生成科研示意图能力的基准数据集，其经典使用场景聚焦于检验生成模型在理解复杂技术描述后，能否产出语义忠实、结构清晰的科学图示。研究者通过向模型提供论文章节与图表标题作为输入，要求模型生成对应的概念图、流程图或结构图，并依据六维评价体系对生成结果进行量化评分。这一场景为衡量模型在知识密集型视觉生成任务中的表现提供了标准化测试平台。

实际应用

在实际科研工作中，SridBench所评估的能力可直接应用于自动化辅助科研作图场景，例如帮助研究者快速生成论文中的概念示意图、实验流程图或模型框架图，大幅缩短手动绘制所需数小时的周期。该数据集也为学术出版机构、科研工具开发商提供了模型选型与性能验证的依据，使其能够筛选出最适宜嵌入科研工作流的图像生成模型。此外，在科学教育与科普领域，该基准可辅助生成直观的教学图示，将抽象理论转化为可视化内容，提升知识传播效率与理解深度。

衍生相关工作

SridBench的提出催生了一系列后续探索，包括针对科研示意图生成中常见错误（如科学常识谬误、元素缺失、文本表达不完整）的专项改进研究。相关工作可能涉及增强模型的推理链能力，如融合链式思维机制以提升对复杂逻辑关系的解析；或构建领域特定的细粒度评估指标，以弥补现有六维评价体系在特定学科（如有机化学、地理环境）中的不足。此外，该数据集也为开发更高质量的训练数据生成管线提供了参考，推动开源模型在科研绘图任务上的性能追赶，形成了从基准测试到模型优化再到应用落地的完整研究闭环。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集