WiseEdit
收藏WiseEdit 数据集概述
数据集基本信息
- 数据集名称:WiseEdit (WiseEdit-Benchmark)
- 核心定位:一个专注于认知与创造力驱动的知识密集型图像编辑基准测试。
- 构建目标:用于评测指令引导的图像编辑模型在知识推理和组合创造力方面的能力。
- 数据规模:包含 1,220 个双语测试用例(中英文)。
- 发布状态:基准数据、自动评估代码、提示词及基线模型结果均已发布。
核心设计框架
WiseEdit 围绕 任务深度 和 知识广度 两个维度构建。
任务深度:四种任务类型
- 感知任务 (Awareness Task)
- 焦点:确定“在哪里”编辑。
- 特点:指令中不提供明确的空间坐标,要求模型进行比较推理、参考匹配或细粒度感知。
- 解释任务 (Interpretation Task)
- 焦点:在感知层面确定“如何”编辑。
- 特点:指令通常编码了隐含意图,需要世界知识来理解。
- 想象任务 (Imagination Task)
- 焦点:以主体驱动的创意生成。
- 特点:需要复杂的组合和身份保持的变换。
- 复杂任务 (WiseEdit-Complex)
- 焦点:结合了感知、解释和想象。
- 特点:涉及多图像、多步骤推理,包含条件逻辑和组合生成。
知识广度:三种知识类型
- 陈述性知识 (Declarative Knowledge) – “知道是什么”
- 涉及事实、概念、感知线索。
- 程序性知识 (Procedural Knowledge) – “知道怎么做”
- 涉及多步骤技能或操作流程。
- 元认知知识 (Metacognitive Knowledge) – “知道何时以及如何运用知识”
- 涉及条件推理、规则堆叠等。
- 这些知识基于文化常识、自然科学和时空逻辑,强调编辑的文化恰当性、物理一致性和逻辑连贯性。
评估协议
- 评估方法:采用基于视觉语言模型 (VLM) 的自动评估流程。
- 核心评估器:GPT-4o。
- 评估指标 (1-10分,线性映射至0-100分):
- IF – 指令遵循
- DP – 细节保留
- VQ – 视觉质量
- KF – 知识保真度 (适用于知识驱动案例)
- CF – 创意融合 (适用于想象/复杂案例)
- 综合分数计算公式:
$ ext{AVG} = frac{ ext{IF} + ext{DP} + ext{VQ} + alpha cdot ext{KF} + eta cdot ext{CF}}{3 + alpha + eta}$
- 其中,仅当 KF 或 CF 适用时,$alpha$ 和 $eta$ 才为 1。
- 有效性:用户研究表明,该协议与人类评分有很强的相关性。
数据集内容与结构
-
基准数据地址:https://huggingface.co/datasets/123123chen/WiseEdit-Benchmark
-
结果数据地址:https://huggingface.co/datasets/midbee/WiseEdit-Results
-
文件夹结构:
WiseEdit-Benchmark/ ├── WiseEdit/ # 基础任务 │ ├── Awareness/ # 感知任务 │ ├── Imagination/ # 想象任务 │ └── Interpretation/ # 解释任务 └── WiseEdit-Complex/ # 复杂任务
-
子集内容:每个任务子集文件夹内包含:
imgs/:输入图像。img_ref/:参考图像(如有)。*.csv:以 CSV 格式存储的元数据和指令。ins.json:以 JSON 格式存储的相同标注(供代码使用)。
使用方式
- 环境配置:需要 Python 3.10,安装
requirements.txt中的依赖,并设置 OpenAI 兼容的 API 密钥和地址。 - 组织生成图像:需将模型生成的图像按
result_img_root/<模型名>/<子集>/<语言>/<ID>.png的目录结构存放。 - 运行评估:使用
run_eval.py脚本对指定模型输出进行评分。 - 汇总统计:使用
statistic.py脚本聚合各子集的评分结果,生成按任务和语言划分的平均分数。
基准测试结果
- 已使用该数据集对 22 个最先进的图像编辑模型 进行了基准测试。
- 测试结果揭示了现有模型在基于知识的推理和组合创造力方面存在明显局限。
引用
如需使用该数据集,请引用以下论文: bibtex @article{pan2025wiseedit, title={WiseEdit: Benchmarking Cognition-and Creativity-Informed Image Editing}, author={Pan, Kaihang and Chen, Weile and Qiu, Haiyi and Yu, Qifan and Bu, Wendong and Wang, Zehan and Zhu, Yun and Li, Juncheng and Tang, Siliang}, journal={arXiv preprint arXiv:2512.00387}, year={2025} }




