GRADE

github2026-03-13 更新2026-03-15 收录

下载链接：

https://github.com/VisionXLab/GRADE

下载链接

链接失效反馈

官方服务：

资源简介：

GRADE是第一个用于评估图像编辑中学科知识和推理能力的基准测试。它包含10个学术领域的520个精心挑选的样本，从自然科学到社会科学，并提供了一个多维度的自动化评估协议，共同评估学科推理、视觉一致性和逻辑可读性。

GRADE is the first benchmark for evaluating domain knowledge and reasoning capabilities in image editing. It contains 520 carefully curated samples across 10 academic disciplines, ranging from natural sciences to social sciences, and provides a multi-dimensional automated evaluation protocol that jointly assesses domain reasoning, visual consistency, and logical readability.

创建时间：

2026-03-12

原始信息汇总

GRADE数据集概述

数据集基本信息

数据集名称: GRADE (Grounded Reasoning Assessment for Discipline-informed Editing)
主要用途: 评估图像编辑任务中基于学科的知识与推理能力
核心特点: 首个专注于评估学科信息图像编辑的基准
样本数量: 520个
覆盖领域: 10个学术领域（从自然科学到社会科学）
数据存储: 可通过Hugging Face获取（https://huggingface.co/datasets/VisionXLab/GRADE）

评估维度

GRADE提供一个多维度的自动化评估协议，联合评估以下三个维度：

学科推理 (Discipline Reasoning): 通过问题引导的视觉问答进行评估
视觉一致性 (Visual Consistency): 使用特定任务提示进行评估
逻辑可读性 (Logical Readability): 评估清晰度和正确性

数据集结构

核心数据文件为data.json，包含评估所需的所有元数据。模型输出结果需组织为result.json格式，包含以下字段：

image_path: 原始输入图像路径
editing_path: 模型编辑后的图像路径
gt: 真实标注图像路径
text: 编辑提示文本
task_id: 任务标识符
consistency: 一致性类型（"overall" | "style" | "none"）
sub_task: 子任务名称
questions: 问题列表（包含问题ID、问题内容和得分）

评估流程

安装依赖: pip install openai simplejson tqdm
准备数据集: 从Hugging Face下载并配置result.json
配置评估: 设置eval.py中的API端点、密钥和工作线程数
运行评估: 执行python eval.py
获取结果: 输出文件包括各维度评估结果和最终得分文件

输出文件

评估生成以下文件：

gemini_flash_eval_1.json: 合并的学科推理结果
gemini_flash_consis_4.json: 合并的视觉一致性结果
gemini_flash_read_4.json: 合并的逻辑可读性结果
full_result_gemini_flash.json: 完整的逐任务细分结果
domain_score.json: 按领域划分的最终准确率和宽松得分

技术特性

可恢复性: 评估过程检查现有结果文件，中断后可重新运行，已完成任务自动跳过
自动化评估: 提供完整的自动化评估流程
多模型支持: 支持闭源和开源模型的性能比较

相关资源

论文: https://arxiv.org/abs/2603.12264
项目页面: https://grade-bench.github.io/
代码仓库: https://github.com/VisionXLab/GRADE

搜集汇总

数据集介绍

构建方式

在跨学科图像编辑评估领域，GRADE数据集的构建体现了严谨的学术规范。其构建过程围绕十个学术领域展开，涵盖自然科学与社会科学，通过精心筛选与标注，形成了520个高质量样本。每个样本均包含原始图像、编辑指令、编辑后的图像以及对应的真实标注，并辅以领域特定的推理问题，从而构建了一个结构化的多模态评估基准。

特点

GRADE数据集的核心特点在于其多维度的自动化评估体系。它不仅评估视觉一致性，更创新性地引入了学科推理与逻辑可读性两个维度，通过问题引导的视觉问答机制对模型的跨学科知识进行深度考察。数据集覆盖十个迥异的学术领域，确保了评估的广度与挑战性，为衡量模型在复杂场景下的推理与编辑能力提供了全面而细致的标尺。

使用方法

使用GRADE数据集进行评估，需遵循其标准化的流程。用户首先需准备符合特定JSON格式的模型输出文件，其中需包含图像路径、编辑提示及对应的任务标识。随后，通过配置评估脚本中的API端点与密钥，运行自动化评估管道。该流程将依次生成学科推理、视觉一致性与逻辑可读性的分项结果，并最终汇总为各领域的准确率与综合得分，支持断点续评以确保大规模评估的可靠性。

背景与挑战

背景概述

在人工智能与计算机视觉交叉领域，多模态图像编辑任务正逐步从基础的视觉操作向融合深度学科知识的复杂推理演进。GRADE数据集应运而生，由上海交通大学、华南理工大学、复旦大学、香港中文大学及中国科学技术大学等机构的联合研究团队于2026年创建，旨在构建首个评估图像编辑中学科知识与推理能力的基准。该数据集的核心研究问题是衡量模型在跨学科语境下进行基于知识的图像编辑与推理的能力，涵盖从自然科学到社会科学等十个学术领域，共计520个精心标注的样本。GRADE的提出填补了现有评估体系在学科深度与逻辑严谨性方面的空白，为推进多模态人工智能向更高层次的认知与理解迈出了关键一步，对相关领域的研究方向与模型发展产生了显著的导向作用。

当前挑战

GRADE数据集所针对的领域问题，即学科知识引导的图像编辑评估，面临多重挑战。首要挑战在于如何精准定义并量化‘学科推理’这一抽象概念，确保评估能真实反映模型对专业知识的理解与应用，而非表面的视觉匹配。其次，构建跨十大学科领域的高质量样本集，需克服专业知识壁垒，确保每个编辑指令与结果在学科逻辑上的正确性与一致性，这对标注者的专业素养提出了极高要求。此外，设计一个能够同时评估学科推理、视觉一致性与逻辑可读性的多维自动化评估协议，本身即是一项复杂的系统工程，需在评估的全面性与自动化可行性之间取得微妙平衡。这些挑战共同构成了该数据集在推动领域发展过程中的核心难点。

常用场景

经典使用场景

在跨模态人工智能研究领域，GRADE数据集被广泛用于评估图像编辑模型在学科知识引导下的推理能力。该数据集通过涵盖自然科学、社会科学等十个学术领域的520个样本，构建了一个多维度评估框架，研究者通常利用其提供的自动化评估协议，系统性地测试模型在完成学科特定图像编辑任务时，能否保持视觉一致性、逻辑可读性并执行准确的学科推理。

衍生相关工作

围绕GRADE数据集，学术界已衍生出一系列旨在提升模型学科推理能力的研究工作。这些工作主要沿着两个方向展开：一是改进模型架构，通过引入知识图谱或领域专家模块来增强对专业术语和逻辑的理解；二是优化训练策略，例如利用GRADE的评估反馈进行强化学习或课程学习，以精细调整模型在特定学科上的编辑性能，推动了整个领域向更可靠、更专业的多模态生成方向发展。

数据集最近研究