GRADE
收藏arXiv2026-03-13 更新2026-03-14 收录
下载链接:
https://huggingface.co/datasets/VisionXLab/GRADE
下载链接
链接失效反馈官方服务:
资源简介:
GRADE是由上海交通大学等机构联合构建的首个面向学科知识推理的图像编辑基准数据集,涵盖数学、物理、化学等10个学科领域的520个精细标注样本。数据集包含输入图像、文本编辑指令和真实编辑结果的三元组结构,数据来源于开放教材和专业参考资料,并经过多轮专家验证。该数据集旨在评估多模态模型在学科知识引导下的复杂图像编辑能力,为科研辅助、教育工具等场景提供基准测试平台。
GRADE is the first benchmark dataset for image editing guided by disciplinary knowledge reasoning, jointly constructed by Shanghai Jiao Tong University and other institutions. It contains 520 finely annotated samples spanning 10 disciplines including mathematics, physics, chemistry and other fields. The dataset adopts a triplet structure consisting of input images, text editing instructions and ground-truth edited results. The data is sourced from open textbooks and professional reference materials, and has undergone multiple rounds of expert validation. This dataset aims to evaluate the complex image editing capabilities of multimodal models guided by disciplinary knowledge, providing a benchmark platform for scenarios such as scientific research assistance and educational tools.
提供机构:
上海交通大学; 华南理工大学; 复旦大学; 香港中文大学; 中国科学技术大学
创建时间:
2026-03-13
搜集汇总
数据集介绍

构建方式
GRADE数据集的构建过程体现了严谨的学术规范与跨学科知识整合。研究团队从公开教育资源、开源数据集及程序化生成工具三个互补来源,精心收集了涵盖数学、物理、化学、生物学、历史、地理、体育、音乐、计算机科学和经济学等十个学术领域的图像素材。为确保数据的专业性与可靠性,六名具备相关学科背景的标注员对原始图像进行手动编辑,生成输入-真值图像对,并设计相应的编辑指令,随后由两位专家进行交叉验证。对于部分样本,团队首先采用自动化流程从现有数据集中进行粗筛,再经由专家人工筛选和设计指令,最终同样通过交叉验证确保质量。这种多层次、多来源的构建策略,有效保障了数据集在学科深度与视觉多样性上的平衡。
特点
GRADE数据集的核心特征在于其首次系统性地将学科知识推理引入图像编辑评估领域。该数据集包含520个精心设计的样本,覆盖从自然科学到人文社会科学的十个学科,并进一步细分为二级子学科,以捕捉精细化的知识结构与推理模式。与以往侧重于自然图像和浅层常识推理的基准不同,GRADE要求模型在结构化、领域特定的约束下进行知识密集型的隐式推理,例如修改化学结构、校正几何图表或完善数据可视化。其评估框架创新性地融合了学科推理、视觉一致性和逻辑可读性三个维度,不仅考察编辑结果的学科正确性,还评估其与原始结构的视觉连贯性以及学术表达的清晰度,从而为统一多模态模型提供了全面而严格的测试平台。
使用方法
GRADE数据集的使用旨在系统评估模型在学科知识引导下的图像编辑与推理能力。研究者首先获取包含输入图像、文本编辑指令和真值图像的三元组样本。模型需根据指令对输入图像进行编辑,生成修改后的结果。评估过程采用自动化的多维协议:学科推理维度通过基于大语言模型的加权问题引导式评判进行,衡量编辑结果是否符合学科知识;视觉一致性维度根据任务类型(局部化、风格或独立性)评估未修改部分的保持程度;逻辑可读性维度则判断编辑后图像在文本标注、元素区分和符号一致性等方面的清晰度。最终,样本的正确性要求在所有三个维度上均获得最高分。该评估流程与人类判断高度一致,为诊断模型在知识理解、推理和执行方面的瓶颈提供了可靠工具。
背景与挑战
背景概述
在统一多模态模型(UMMs)迅速发展的背景下,现有图像编辑基准主要局限于自然图像和浅层常识推理,难以评估模型在结构化、领域特定约束下的知识整合与推理能力。为此,上海交通大学等机构的研究团队于2026年3月推出了GRADE(Grounded Reasoning Assessment for Discipline-informed Editing)基准,这是首个专门评估学科知识驱动图像编辑的基准。GRADE覆盖数学、物理、化学、生物、历史、地理、体育、音乐、计算机科学和经济学等十个学术领域,精心构建了520个样本,旨在为多模态模型在知识密集型编辑任务中的表现提供严谨、全面的评估框架,推动学科知识驱动的图像编辑与推理研究。
当前挑战
GRADE基准旨在解决学科知识驱动的图像编辑这一复杂问题,其核心挑战在于要求模型在编辑过程中整合深层的学科知识、进行结构化推理,并在保持视觉一致性的前提下完成精确修改。具体挑战包括:模型需理解并应用各学科特有的符号系统、图表规范与逻辑关系(如化学结构式、物理电路图、数学几何变换),同时避免引入语义错误;在构建过程中,数据收集需确保学科准确性与视觉多样性,涉及从开放教育资源中筛选并手动编辑高质量图像对,设计隐含知识推理的编辑指令,并建立多维自动化评估协议(学科推理、视觉一致性、逻辑可读性)以可靠量化模型性能,这些都对标注者的专业素养与评估方法的严谨性提出了极高要求。
常用场景
经典使用场景
在跨模态智能模型评估领域,GRADE数据集被广泛用于检验模型在学科知识引导下的图像编辑与推理能力。该数据集涵盖了数学、物理、化学、生物学等十个学术领域,通过精心设计的编辑指令,要求模型在保持视觉一致性的基础上,完成涉及专业知识的图像修改任务。例如,在化学领域,模型需根据分子结构推理并绘制其对映异构体;在经济学中,则需依据市场变化调整供需曲线。这些场景不仅测试模型的视觉生成质量,更深入评估其跨学科知识融合与结构化推理的潜力。
衍生相关工作
GRADE数据集的推出催生了一系列围绕学科知识推理与图像编辑的衍生研究。例如,基于GRADE评估发现的模型瓶颈,后续工作开始探索如何增强多模态模型在隐含指令下的知识检索与结构化推理能力,如引入链式思维提示或知识图谱增强的编辑方法。同时,该数据集也促进了跨学科视觉编辑基准的扩展,例如针对特定领域(如医学影像、工程制图)的细粒度评估数据集的构建。此外,GRADE的多维度评估协议被借鉴用于其他需要结合专业知识与视觉生成的任务,如科学插图生成、技术文档自动化修订等,推动了视觉与语言深度融合的研究进展。
数据集最近研究
最新研究方向
在图像编辑领域,GRADE数据集的推出标志着对统一多模态模型(UMMs)学科知识推理能力评估的前沿探索。该数据集通过涵盖数学、物理、化学、生物、历史、地理、体育、音乐、计算机科学和经济学等十个学术领域的520个样本,构建了一个多维评估框架,重点考察学科推理、视觉一致性和逻辑可读性。当前研究热点聚焦于模型在隐含知识密集型编辑任务中的表现,实验揭示即使是顶尖模型如Nano Banana Pro在学科推理维度上仍存在显著瓶颈,准确率不足50%,而开源与闭源模型之间呈现巨大性能鸿沟。这一基准不仅暴露了现有模型在结构化学术知识整合与推理方面的局限性,更为未来UMMs的发展指明了方向,推动图像编辑技术向更深层次的学科智能化演进。
相关研究论文
- 1GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing上海交通大学; 华南理工大学; 复旦大学; 香港中文大学; 中国科学技术大学 · 2026年
以上内容由遇见数据集搜集并总结生成



