WiseEdit

github2025-12-09 更新2025-12-10 收录

下载链接：

https://github.com/beepkh/WiseEdit

下载链接

链接失效反馈

官方服务：

资源简介：

WiseEdit是一个知识密集型的基准测试，用于认知和创造力导向的图像编辑。它将基于指令的编辑分解为三个阶段：意识、解释和想象，并提供了1,220个双语测试案例以及基于GPT-4o的自动评估流程。

WiseEdit is a knowledge-intensive benchmark for cognition and creativity-oriented image editing. It decomposes instruction-based image editing into three stages: awareness, interpretation, and imagination, and provides 1,220 bilingual test cases as well as an automatic evaluation pipeline based on GPT-4o.

创建时间：

2025-11-29

原始信息汇总

WiseEdit 数据集概述

数据集基本信息

数据集名称：WiseEdit (WiseEdit-Benchmark)
核心定位：一个专注于认知与创造力驱动的知识密集型图像编辑基准测试。
构建目标：用于评测指令引导的图像编辑模型在知识推理和组合创造力方面的能力。
数据规模：包含 1,220 个双语测试用例（中英文）。
发布状态：基准数据、自动评估代码、提示词及基线模型结果均已发布。

核心设计框架

WiseEdit 围绕 任务深度 和 知识广度 两个维度构建。

任务深度：四种任务类型

感知任务 (Awareness Task)
- 焦点：确定“在哪里”编辑。
- 特点：指令中不提供明确的空间坐标，要求模型进行比较推理、参考匹配或细粒度感知。
解释任务 (Interpretation Task)
- 焦点：在感知层面确定“如何”编辑。
- 特点：指令通常编码了隐含意图，需要世界知识来理解。
想象任务 (Imagination Task)
- 焦点：以主体驱动的创意生成。
- 特点：需要复杂的组合和身份保持的变换。
复杂任务 (WiseEdit-Complex)
- 焦点：结合了感知、解释和想象。
- 特点：涉及多图像、多步骤推理，包含条件逻辑和组合生成。

知识广度：三种知识类型

陈述性知识 (Declarative Knowledge) – “知道是什么”
- 涉及事实、概念、感知线索。
程序性知识 (Procedural Knowledge) – “知道怎么做”
- 涉及多步骤技能或操作流程。
元认知知识 (Metacognitive Knowledge) – “知道何时以及如何运用知识”
- 涉及条件推理、规则堆叠等。
- 这些知识基于文化常识、自然科学和时空逻辑，强调编辑的文化恰当性、物理一致性和逻辑连贯性。

评估协议

评估方法：采用基于视觉语言模型 (VLM) 的自动评估流程。
核心评估器：GPT-4o。
评估指标 (1-10分，线性映射至0-100分)：
- IF – 指令遵循
- DP – 细节保留
- VQ – 视觉质量
- KF – 知识保真度 (适用于知识驱动案例)
- CF – 创意融合 (适用于想象/复杂案例)
综合分数计算公式： $ ext{AVG} = frac{ ext{IF} + ext{DP} + ext{VQ} + alpha cdot ext{KF} + eta cdot ext{CF}}{3 + alpha + eta}$
- 其中，仅当 KF 或 CF 适用时，$alpha$ 和 $eta$ 才为 1。
有效性：用户研究表明，该协议与人类评分有很强的相关性。

数据集内容与结构

基准数据地址：https://huggingface.co/datasets/123123chen/WiseEdit-Benchmark
结果数据地址：https://huggingface.co/datasets/midbee/WiseEdit-Results
文件夹结构：

WiseEdit-Benchmark/ ├── WiseEdit/ # 基础任务 │ ├── Awareness/ # 感知任务 │ ├── Imagination/ # 想象任务 │ └── Interpretation/ # 解释任务 └── WiseEdit-Complex/ # 复杂任务
子集内容：每个任务子集文件夹内包含：
- imgs/：输入图像。
- img_ref/：参考图像（如有）。
- *.csv：以 CSV 格式存储的元数据和指令。
- ins.json：以 JSON 格式存储的相同标注（供代码使用）。

使用方式

环境配置：需要 Python 3.10，安装 requirements.txt 中的依赖，并设置 OpenAI 兼容的 API 密钥和地址。
组织生成图像：需将模型生成的图像按 result_img_root/<模型名>/<子集>/<语言>/<ID>.png 的目录结构存放。
运行评估：使用 run_eval.py 脚本对指定模型输出进行评分。
汇总统计：使用 statistic.py 脚本聚合各子集的评分结果，生成按任务和语言划分的平均分数。

基准测试结果

已使用该数据集对 22 个最先进的图像编辑模型 进行了基准测试。
测试结果揭示了现有模型在基于知识的推理和组合创造力方面存在明显局限。

引用

如需使用该数据集，请引用以下论文： bibtex @article{pan2025wiseedit, title={WiseEdit: Benchmarking Cognition-and Creativity-Informed Image Editing}, author={Pan, Kaihang and Chen, Weile and Qiu, Haiyi and Yu, Qifan and Bu, Wendong and Wang, Zehan and Zhu, Yun and Li, Juncheng and Tang, Siliang}, journal={arXiv preprint arXiv:2512.00387}, year={2025} }

搜集汇总

数据集介绍

构建方式

在图像编辑领域，对模型认知与创造能力的系统性评估尚存空白。WiseEdit数据集围绕任务深度与知识广度两个维度构建，将指令驱动的编辑任务解构为感知、解释与想象三个阶段，并融入陈述性、程序性及元认知三类知识体系。该数据集精心设计了1220个双语测试案例，涵盖文化常识、自然科学与时空逻辑等多个知识领域，每个案例均配有输入图像、参考图像及结构化标注，为模型提供了多层次、多模态的评估场景。

使用方法

研究人员可通过Hugging Face平台获取WiseEdit基准数据，并按照指定的目录结构组织模型生成的图像。使用前需配置Python环境并设置API凭证，随后运行评估脚本对模型输出进行自动化评分。评估流程支持多线程处理，并可针对特定任务子集进行灵活测试。完成评分后，通过统计脚本可聚合不同任务类型与语言版本的综合性能指标，从而获得模型在认知与创造性维度的详细诊断报告，助力图像编辑技术的迭代与优化。

背景与挑战

背景概述

在生成式人工智能迅猛发展的浪潮中，指令驱动的图像编辑技术已成为连接人类意图与视觉内容生成的关键桥梁。然而，现有基准多侧重于简单的像素级操作或风格迁移，缺乏对模型深层认知与创造性能力的系统性评估。为此，浙江大学与上海人工智能实验室的研究团队于2025年共同推出了WiseEdit基准数据集。该数据集旨在解构并评估图像编辑模型在认知与创造性维度的综合性能，其核心研究问题聚焦于模型如何理解隐含意图、整合多源知识并进行创造性组合生成。通过引入“感知-解释-想象”的三阶段评估框架，WiseEdit为深入探究模型在复杂、知识密集型场景下的推理与生成能力提供了标准化工具，对推动智能图像编辑向更高层次的语义理解与创造性表达迈进具有显著影响力。

当前挑战

WiseEdit数据集所针对的领域挑战在于，当前图像编辑模型在应对需要深度认知与创造性融合的复杂指令时表现乏力。具体而言，模型难以准确解析指令中隐含的空间关系与意图，在整合文化常识、自然科学知识及时空逻辑进行一致性编辑方面存在明显短板，且在完成多图像、多步骤的组合生成任务时，往往无法保持身份一致性与逻辑连贯性。在数据集构建过程中，挑战同样突出：如何设计兼具任务深度与知识广度的双语测试用例，以确保评估的全面性与公平性；如何建立可靠且高效的自动化评估流程，以GPT-4o为骨干，设计出与人类评判高度相关的多维量化指标，并妥善处理不同知识类型与任务复杂度下的评分权重分配问题。

常用场景

经典使用场景

在图像编辑领域，WiseEdit数据集作为一项知识密集型基准测试，其经典使用场景聚焦于评估模型在认知与创造力引导下的指令遵循能力。该数据集通过将编辑任务分解为感知、解释与想象三个阶段，构建了涵盖文化常识、自然科学与时空逻辑的多样化测试案例。研究者利用其双语标注与自动化评估流程，系统性地衡量模型在隐含意图理解、多步推理以及创造性合成等方面的性能，为图像生成模型的深度能力诊断提供了标准化实验环境。

解决学术问题

WiseEdit致力于解决当前图像编辑研究中知识推理与组合创造力评估体系缺失的核心问题。传统基准往往局限于表面指令的机械执行，而该数据集通过引入声明性、程序性与元认知三类知识维度，迫使模型在编辑过程中融合世界知识进行条件判断与逻辑推演。其意义在于首次构建了能够量化模型认知深度的评估框架，揭示了现有模型在文化适配性、物理一致性及创造性融合等方面的显著局限，推动了编辑任务从形式模仿向语义理解的理论跨越。

实际应用

在实际应用层面，WiseEdit为智能图像编辑工具的研发提供了关键的质量验证标准。其涵盖的复杂场景——如基于文化常识的符号替换、遵循自然规律的物理编辑以及多图像条件生成——直接对应着广告设计、教育媒体与娱乐创作等行业需求。开发团队可借助该基准测试工具在部署前系统性检验模型对用户隐含意图的捕捉能力，确保生成结果既符合知识真实性又具备艺术创造性，从而提升产品在真实场景中的实用性与可靠性。

数据集最近研究