KRIS-Bench

Name: KRIS-Bench
Creator: 东南大学, 马克斯·普朗克计算机科学研究所, 上海交通大学, StepFun, 加利福尼亚大学伯克利分校, 加利福尼亚大学默塞德分校
Published: 2025-05-22 22:08:59
License: 暂无描述

arXiv2025-05-22 更新2025-05-24 收录

下载链接：

https://yongliang-wu.github.io/kris_bench_project_page/

下载链接

链接失效反馈

官方服务：

资源简介：

KRIS-Bench是一个基于知识推理的图像编辑系统基准测试，旨在评估模型的知识推理能力。该数据集由东南大学、马克斯·普朗克计算机科学研究所等机构的研究人员共同创建，包含1,267个高质量的标注编辑实例，覆盖了22个编辑任务，跨越7个推理维度。数据集通过认知教育原理进行设计，将知识分为事实性、概念性和程序性三种类型，并提供了详细的分类体系，以支持更精细的评估。KRIS-Bench还引入了新的评估维度——知识合理性，以评估模型生成的编辑是否与现实世界的知识一致，并通过用户研究验证了评估协议的有效性。该数据集适用于图像编辑模型的研究和开发，旨在解决图像编辑中的知识推理问题。

KRIS-Bench is a knowledge reasoning-based benchmark for image editing systems, designed to evaluate the knowledge reasoning capabilities of models. This dataset was jointly created by researchers from institutions including Southeast University, Max Planck Institute for Computer Science, and other institutions. It comprises 1,267 high-quality annotated editing instances, covering 22 editing tasks and spanning 7 reasoning dimensions. The dataset is designed based on cognitive education principles, classifying knowledge into three categories: factual, conceptual, and procedural, and providing a detailed classification system to support more fine-grained evaluations. KRIS-Bench also introduces a new evaluation dimension—knowledge plausibility—to assess whether the edits generated by models align with real-world knowledge, and verified the effectiveness of its evaluation protocol through user studies. This dataset is suitable for the research and development of image editing models, aiming to address the knowledge reasoning challenges in image editing.

提供机构：

东南大学, 马克斯·普朗克计算机科学研究所, 上海交通大学, StepFun, 加利福尼亚大学伯克利分校, 加利福尼亚大学默塞德分校

创建时间：

2025-05-22

原始信息汇总

KRIS-Bench 数据集概述

数据集基本信息

名称: KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark)
开发者: Yongliang Wu等 (来自东南大学、马克斯·普朗克信息学研究所、上海交通大学等机构)
对应作者: Xinting Hu (†)
项目负责人: Xianfang Zeng (‡)

数据集简介

目的: 评估基于指令的图像编辑模型在知识推理任务上的表现
理论基础: 基于教育理论，将编辑任务分为三类知识类型：
- 事实性知识 (Factual)
- 概念性知识 (Conceptual)
- 程序性知识 (Procedural)
任务设计:
- 22个代表性任务
- 覆盖7个推理维度
- 包含1,267个高质量标注的编辑实例

评估方法

核心指标: 知识合理性 (Knowledge Plausibility)
评估增强:
- 使用知识提示
- 通过人类研究校准

性能排行榜

评估维度:
- 事实性知识 (包含属性感知、空间感知、时间感知)
- 概念性知识 (包含社会科学、自然科学)
- 程序性知识 (包含逻辑推理、指令分解)

排名	模型	事实性知识	概念性知识	程序性知识	综合得分
1	GPT-4o OpenAI	79.80	81.37	78.32	80.09
2	Gemini 2.0 Google	65.26	59.65	62.90	62.41
3	Doubao ByteDance	63.30	62.23	54.17	60.70
4	BAGEL-Think ByteDance	55.77	59.44	39.26	53.36
5	BAGEL ByteDance	47.71	52.17	40.23	47.76
6	Step1X-Edit StepFun	45.52	48.01	31.82	43.29
7	Emu2 BAAI	45.40	37.54	34.91	39.70
8	AnyEdit ZJU	39.26	41.88	31.74	38.55
9	MagicBrush OSU	41.84	39.24	26.54	37.15
10	OmniGen BAAI	33.11	28.02	23.89	28.85
11	InstructPix2Pix UCB	23.33	25.59	17.28	22.82

联系方式

结果提交: yongliang0223@gmail.com

搜集汇总

数据集介绍

构建方式

KRIS-Bench数据集的构建基于认知教育理论，采用自上而下的设计范式，将任务按照三种基础知识类型（事实性知识、概念性知识和程序性知识）进行结构化分类。数据收集过程中，大部分图像来自互联网，部分通过生成模型和现有数据集获取。每个图像由训练有素的标注者创建编辑指令，并通过ChatGPT增强指令的多样性和真实性。数据由具有本科及以上学历的标注者进行标注，并由专家审核，确保高质量和准确性。

特点

KRIS-Bench数据集的特点在于其系统性和认知深度。它包含1,267个高质量标注的编辑实例，覆盖22个代表性任务和7个推理维度。数据集首次引入知识合理性（Knowledge Plausibility）评估维度，通过知识提示（knowledge hints）增强评估的可靠性。此外，数据集的设计基于教育理论，将知识类型分解为事实性、概念性和程序性知识，为图像编辑模型的推理能力提供了细粒度的评估框架。

使用方法

KRIS-Bench数据集的使用方法包括四个维度的评估：视觉一致性（Visual Consistency）、视觉质量（Visual Quality）、指令遵循（Instruction Following）和知识合理性（Knowledge Plausibility）。评估过程中，每个知识密集型测试案例附带人工策划的知识提示，以指导视觉语言模型（VLM）的推理。用户可以通过这些评估维度系统地测试和比较不同图像编辑模型在知识推理任务上的表现。数据集还支持细粒度分析，帮助研究者识别模型在不同知识类型和推理维度上的性能差距。

背景与挑战

背景概述

KRIS-Bench（Knowledge-based Reasoning in Image-editing Systems Benchmark）是由东南大学、马克斯·普朗克信息学研究所、上海交通大学等机构的研究团队于2025年提出的诊断性评测基准。该数据集旨在通过认知科学的视角，系统评估多模态生成模型在基于指令的图像编辑任务中的知识推理能力。受教育理论启发，KRIS-Bench将编辑任务划分为事实性知识、概念性知识和程序性知识三大类，涵盖7个推理维度和22个代表性任务，共包含1,267个高质量标注实例。作为首个融合认知分类学的图像编辑评测框架，KRIS-Bench通过引入知识合理性指标和人工校准机制，显著推进了智能图像编辑系统在科学常识、社会文化等复杂推理维度的发展。

当前挑战

KRIS-Bench针对知识密集型图像编辑任务面临双重挑战：在领域问题层面，现有模型虽能生成视觉合理的输出，但在化学反应、物理定律等需要深度知识推理的编辑任务中表现欠佳，例如无法正确处理金属钠遇水的剧烈反应场景；在构建过程层面，数据集需解决知识类型系统化分类、跨领域专家标注一致性、以及评估指标与人类判断对齐等难题。具体挑战包括：如何设计覆盖三类知识的平衡任务体系，如何确保医学、地理等专业领域标注的准确性，以及如何通过知识提示增强视觉语言模型的评估可靠性。

常用场景

经典使用场景

KRIS-Bench作为首个基于认知理论构建的知识驱动图像编辑评测基准，其经典使用场景聚焦于多模态生成模型在知识密集型编辑任务中的系统性评估。该数据集通过教育目标分类学框架，将22种编辑任务划分为事实性、概念性和程序性知识三大类型，覆盖化学实验现象模拟、文化符号替换、多步逻辑推理等复杂场景。例如在化学维度任务中，模型需根据‘将固态钠加入水中’的指令生成符合反应原理的沸腾效果，而非仅实现视觉合理的静态合成。

衍生相关工作

该数据集已衍生出多个重要研究方向：基于BAGEL-Think架构的推理增强型编辑模型通过引入思维链机制，在知识合理性指标上提升21.8%；RISEBench等后续工作扩展了时空推理维度的评估；InstructionDecomp框架则受其多指令执行任务的启发，开发了分层指令解析技术。这些工作共同推动了认知可信图像编辑领域的范式转变。

数据集最近研究