GIE-Bench

github2025-07-08 更新2025-07-25 收录

下载链接：

https://github.com/apple/ml-gie-bench

下载链接

链接失效反馈

官方服务：

资源简介：

GIE-Bench是一个用于评估文本引导图像编辑模型的精选数据集，沿着两个互补的轴进行评估：功能正确性和内容保留。

GIE-Bench is a curated dataset for evaluating text-guided image editing models, which is evaluated along two complementary axes: functional correctness and content preservation.

创建时间：

2025-07-04

原始信息汇总

GIE-Bench数据集概述

数据集简介

名称：GIE-Bench (Grounded Evaluation for Text-Guided Image Editing)
用途：评估文本引导的图像编辑模型
评估维度：
- 功能正确性(Functional Correctness)：通过GPT-4o进行多选题QA评估
- 内容保留度(Content Preservation)：使用CLIP-Sim、SSIM、MSE、PSNR(掩码)等指标评估

数据集结构

GIE‑Bench/ ├── images2000urls/ # 包含URL列表和下载工具 │ └── download_images_from_urls.py ├── evaluation_script/ # 自动化评估脚本 │ ├── GPT‑4o_VQA_evaluation.py │ ├── masked_clip_ssim_evaluation.py │ ├── masked_mse_evaluation.py │ └── masked_psnr_evaluation.py ├── gie_bench_json.zip # 基准测试文件(压缩包) └── README.md

下载说明

原始图像： bash python images2000urls/download_images_from_urls.py
基准JSON文件： bash unzip gie_bench_json.zip # 解压后生成gie_bench.json

模型运行指南

推理过程：
- 加载gie_bench.json
- 为每个条目的image生成编辑后的图像，遵循edit_instruction指令
- 保存编辑后的图像并更新JSON条目
保存结果： python with open("results/my_model_output.json", "w") as f: json.dump(data, f, indent=2)

评估方法

功能正确性评估： bash python evaluation_script/GPT-4o_VQA_evaluation.py
内容保留度评估： bash python evaluation_script/masked_clip_ssim_evaluation.py path/to/your_model_output.json python evaluation_script/masked_mse_evaluation.py path/to/your_model_output.json python evaluation_script/masked_psnr_evaluation.py path/to/your_model_output.json python evaluation_script/clip_whole_image_evaluation.py path/to/your_model_output.json

引用信息

bibtex @article{qian2025gie, title={GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing}, author={Qian, Yusu and Lu, Jiasen and Fu, Tsu-Jui and Wang, Xinze and Chen, Chen and Yang, Yinfei and Hu, Wenze and Gan, Zhe}, journal={arXiv preprint arXiv:2505.11493}, year={2025} }

许可信息

项目许可证：LICENSE
数据许可证：CC-by-NC-ND

搜集汇总

数据集介绍

构建方式

GIE-Bench数据集通过精心设计的流程构建，旨在评估文本引导图像编辑模型的性能。该数据集包含2000张原始图像及其对应的编辑指令，通过自动化脚本从公开资源中下载并整理。构建过程中特别注重指令的多样性和图像的代表性，确保覆盖广泛的编辑场景。评估框架采用双轴指标，包括功能正确性和内容保留度，通过GPT-4o的多选题问答和多种图像相似度度量实现全面评估。

使用方法

使用GIE-Bench数据集需遵循系统化的流程。首先通过提供的Python脚本下载原始图像集，解压包含编辑指令的JSON文件。研究人员需加载基准文件，根据指令生成编辑后的图像，并将输出路径记录回JSON条目。评估阶段通过运行专用脚本完成，包括功能正确性的GPT-4o评估和内容保留度的多种图像相似度计算。所有评估结果会自动附加到新的JSON文件中，确保原始数据完整性的同时提供详细的性能分析。数据集采用模块化设计，支持研究者根据需求选择特定评估维度。

背景与挑战

背景概述

GIE-Bench是由Yusu Qian、Jiasen Lu等研究人员于2025年提出的文本引导图像编辑评估基准数据集，旨在系统性地解决生成式图像编辑模型在功能正确性和内容保留性两大核心维度上的评估难题。该数据集由美国弗吉尼亚理工大学和微软研究院联合开发，通过构建包含2000个样本的标准化测试集，填补了文本到图像编辑领域缺乏量化评估框架的空白。其创新性地引入基于GPT-4o的多选题问答机制和掩膜区域特征相似度计算，为衡量编辑指令的语义实现程度与原始图像内容保护效果建立了双重评估体系，推动了可控图像生成技术的标准化发展。

当前挑战

在领域问题层面，GIE-Bench致力于攻克文本引导编辑中语义对齐与内容保真难以兼得的固有矛盾。传统评估方法往往孤立考察图像质量或文本匹配度，而该数据集通过设计掩膜区域特定指标（如masked CLIP-SSIM）和解耦式评估框架，首次实现了对编辑区域功能实现与非编辑区域完整保留的分离量化。在构建过程中，研究团队面临跨模态评估标准制定的挑战，包括如何平衡GPT-4o评估的主观性与传统图像指标的局限性，以及处理大规模图像编辑样本时保持标注一致性的难题。此外，动态遮罩生成技术的实现与多维度评估指标的协同优化，也成为数据集构建过程中的关键技术瓶颈。

常用场景

经典使用场景

在计算机视觉与生成式人工智能领域，GIE-Bench数据集为文本引导图像编辑模型的评估提供了标准化测试平台。其核心应用场景聚焦于量化分析模型执行指令的准确性与内容保留能力，通过结构化评估流程支持跨模型性能对比。该数据集特别适用于多模态交互场景下编辑效果的细粒度评测，例如在保持原图背景不变的前提下修改特定对象的属性或风格。

解决学术问题

该数据集有效解决了文本-图像跨模态对齐评估体系缺失的学术难题，通过功能正确性与内容保存度双维度指标，建立了可量化的编辑质量评价标准。其创新的掩膜评估方法克服了传统指标对局部编辑不敏感的缺陷，为研究指令理解偏差、编辑过度/不足等典型问题提供了诊断工具，推动了可控图像生成领域的评估方法论发展。

实际应用

在实际应用中，GIE-Bench支持电商平台自动生成符合文字描述的广告图像，辅助设计师快速完成素材迭代。其评估框架已集成到多个商业图像编辑工具的质量控制环节，用于优化AI修图功能在医疗影像去标识化、影视特效制作等场景的可靠性，显著降低了人工复核成本。

数据集最近研究