WiseEdit-Benchmark

Hugging Face2025-12-08 更新2025-12-09 收录

下载链接：

https://huggingface.co/datasets/123123chen/WiseEdit-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

WiseEdit是一个知识密集型的基准数据集，旨在评估认知和创造力指导下的图像编辑能力。它将基于指令的编辑分解为三个阶段：Awareness（感知）、Interpretation（解释）和Imagination（想象），并提供了1,220个双语测试案例以及基于GPT-4o的自动评估流程。数据集围绕任务深度和知识广度构建，包括四种任务类型和三种知识类型，强调文化常识、自然科学和时空逻辑的编辑要求。评估协议采用视觉语言模型（VLM）为基础的自动评估流程，包括多个指标和综合评分方法。

创建时间：

2025-12-08

原始信息汇总

WiseEdit-Benchmark 数据集概述

数据集基本信息

数据集名称: WiseEdit (WiseEdit-Benchmark)
托管地址: https://huggingface.co/datasets/123123chen/WiseEdit-Benchmark
许可协议: Apache-2.0
任务类别: 图像到图像
主要语言: 英语
数据规模: 1K < n < 10K

核心介绍

WiseEdit 是一个用于评估认知与创造力驱动的图像编辑的知识密集型基准。它将基于指令的编辑分解为三个阶段：感知、解释和想象，并提供了1,220个双语测试案例以及一个基于GPT-4o的自动评估流程。通过该数据集，研究者对22个最先进的图像编辑模型进行了基准测试，揭示了它们在基于知识的推理和组合创造力方面的明显局限性。

数据集设计概览

WiseEdit 围绕任务深度和知识广度构建。

任务深度 – 四种任务类型

感知任务 – 关注编辑何处；不提供明确的空间坐标；需要比较推理、参考匹配或细粒度感知。
解释任务 – 关注感知层面的如何编辑；指令通常编码隐含意图，需要世界知识。
想象任务 – 关注以主体驱动的创造性生成；需要复杂的组合和身份保持转换。
WiseEdit-Complex – 结合感知、解释和想象；涉及多图像、多步骤推理，包含条件逻辑和组合生成。

知识广度 – 三种知识类型

WiseEdit 根据知识类型组织案例：

陈述性知识 – “知道是什么”；事实、概念、感知线索。
程序性知识 – “知道如何做”；多步骤技能或程序。
元认知知识 – “知道如何知道”；何时以及如何应用陈述性或程序性知识；涉及条件推理、规则堆叠等。这些知识根植于文化常识、自然科学和时空逻辑，强调文化适宜、物理一致和逻辑连贯的编辑。

评估协议

采用基于视觉语言模型的自动评估流程：

主干评估器: GPT-4o。
评估指标 (1–10 线性映射至 0–100):
- IF – 指令遵循
- DP – 细节保留
- VQ – 视觉质量
- KF – 知识保真度 (针对知识相关的案例)
- CF – 创意融合 (针对想象/复杂案例)
总体分数计算公式: AVG = (IF + DP + VQ + α·KF + β·CF) / (3 + α + β) 其中，仅当KF或CF适用时，α和β才为1。用户研究表明，该协议与人类评分有很强的相关性。

引用信息

如果使用本数据集，请引用： bibtex @article{pan2025wiseedit, title={WiseEdit: Benchmarking Cognition-and Creativity-Informed Image Editing}, author={Pan, Kaihang and Chen, Weile and Qiu, Haiyi and Yu, Qifan and Bu, Wendong and Wang, Zehan and Zhu, Yun and Li, Juncheng and Tang, Siliang}, journal={arXiv preprint arXiv:2512.00387}, year={2025} }

搜集汇总

数据集介绍

构建方式

在图像编辑领域，WiseEdit基准的构建围绕任务深度与知识广度两个核心维度展开。该数据集精心设计了1,220个双语测试案例，将指令驱动的图像编辑过程系统性地解构为认知、解释与想象三个阶段。每个案例均植根于文化常识、自然科学及时空逻辑等知识范畴，并依据陈述性、程序性及元认知三种知识类型进行组织，旨在全面评估模型在隐含意图理解、多步推理及创造性融合等方面的综合能力。

特点

WiseEdit基准的显著特征在于其层次化的任务设计，涵盖了从感知定位到创意生成的全谱系挑战。它不仅包含要求模型识别编辑区域的感知任务，也纳入了需要依据世界知识进行隐性意图解析的解释任务，更延伸至涉及复杂构图与身份保持的创造性想象任务。此外，数据集还引入了融合前述所有阶段的复合任务，通过多图像、多步骤的条件逻辑推理，深度检验模型的组合式创造力与知识驱动的编辑连贯性。

使用方法

使用WiseEdit基准时，研究者可借助其提供的基于GPT-4o的自动化评估流程，对图像编辑模型的性能进行标准化度量。该流程定义了指令遵循、细节保留、视觉质量、知识保真度及创意融合五项核心指标，并提供了加权平均的总体评分公式。用户通过运行开源代码，能够便捷地将待评估模型的输出与基准中的测试案例进行比对，从而获得可量化、可复现的评测结果，为模型的能力诊断与迭代优化提供科学依据。

背景与挑战

背景概述

在人工智能与计算机视觉的交叉领域，指令驱动的图像编辑技术正朝着理解与创造并重的方向发展。WiseEdit基准数据集由浙江大学与上海人工智能实验室的研究团队于2025年联合创建，旨在系统评估模型在认知与创造力引导下的图像编辑能力。该数据集将编辑过程解构为感知、解读与想象三个阶段，并融入了陈述性、程序性及元认知三类知识体系，其核心研究问题聚焦于模型如何整合深层世界知识、文化常识与时空逻辑，以执行复杂且富有创意的编辑任务。这一基准的建立，为衡量生成式模型的推理与组合创造力设立了新的标尺，推动了知识密集型图像编辑研究的前沿探索。

当前挑战

WiseEdit数据集所应对的领域挑战，在于解决当前图像编辑模型在知识驱动推理与组合式创造力方面的显著局限。具体而言，模型需在缺乏显式空间坐标的情况下进行对比推理与细粒度感知，理解指令中蕴含的隐式意图，并完成身份保持的创造性组合生成。在数据集构建过程中，挑战主要源于如何系统地将文化常识、自然科学与时空逻辑知识，高质量地锚定到多步骤、多图像的编辑指令中，并确保评估协议在自动评分与人类判断间具有强相关性，这要求精心设计任务深度与知识广度的平衡。

常用场景

经典使用场景

在图像编辑领域，WiseEdit-Benchmark作为一项知识密集型基准，其经典使用场景聚焦于评估模型在认知与创造力引导下的指令遵循能力。该数据集通过分解编辑任务为感知、解释与想象三个阶段，构建了涵盖文化常识、自然科学与时空逻辑的多样化测试案例。研究者通常利用其自动评估流程，系统性地衡量模型在隐式意图理解、多步推理以及创造性融合等方面的性能，从而为模型优化提供精确的诊断依据。

解决学术问题

WiseEdit-Benchmark旨在解决当前图像生成与编辑研究中普遍存在的知识推理与组合创造力不足的学术问题。通过引入声明性、程序性及元认知三类知识体系，该数据集迫使模型超越表层指令，深入处理隐含的世界知识与复杂条件逻辑。其意义在于为社区提供了一个标准化、可复现的评估框架，显著推动了模型在跨领域知识融合、逻辑一致性保持以及创造性表达等方面的研究进展，为构建更智能、更可靠的图像编辑系统奠定了理论基础。

衍生相关工作

围绕WiseEdit-Benchmark，学术界已衍生出一系列经典研究工作。许多团队借鉴其任务分解与知识分类框架，开发了新型的评估协议或训练数据集，以针对性提升模型在特定知识维度上的能力。同时，该基准的公开结果促进了模型间的横向比较，激发了在增强模型推理模块、改进多模态对齐机制以及设计更精细的损失函数等方面的创新。这些衍生工作共同丰富了图像编辑领域的方法论，持续拓展着智能创作系统的边界。

以上内容由遇见数据集搜集并总结生成