ImgEdit
收藏github2025-05-26 更新2025-05-27 收录
下载链接:
https://github.com/PKU-YuanGroup/ImgEdit
下载链接
链接失效反馈官方服务:
资源简介:
ImgEdit是一个大规模、高质量的图像编辑数据集,包含120万精心策划的编辑对,涵盖了新颖且复杂的单次编辑任务以及具有挑战性的多次编辑任务。为确保数据质量,采用了一个多阶段的流程,整合了前沿的视觉语言模型、检测模型、分割模型,以及任务特定的修复程序和严格的后处理。ImgEdit在任务新颖性和数据质量方面均超越了现有数据集。
ImgEdit is a large-scale, high-quality image editing dataset containing 1.2 million carefully curated edit pairs, covering novel and complex single-turn editing tasks as well as challenging multi-turn editing tasks. To ensure data quality, a multi-stage pipeline integrating cutting-edge vision-language models, detection models, segmentation models, task-specific repair procedures, and strict post-processing was adopted. ImgEdit outperforms existing datasets in terms of both task novelty and data quality.
创建时间:
2025-05-16
原始信息汇总
ImgEdit数据集概述
数据集基本信息
- 名称: ImgEdit: A Unified Image Editing Dataset and Benchmark
- 开发者: 北京大学深圳研究生院、鹏城实验室、Rabbitpre AI
- 规模: 120万精心筛选的编辑对
- 特点:
- 包含新颖复杂的单轮编辑任务
- 包含具有挑战性的多轮编辑任务
- 数据质量优于现有数据集
数据集构成
- 单轮任务: 10类
- 多轮任务: 3类
- 数据来源: 基于Laion-aes数据集筛选(美学评分>4.75)
数据处理流程
- 数据准备与过滤: 使用Laion-aes数据集,保留美学评分>4.75的样本
- 生成密集描述: 使用Qwen2.5VL-7B生成密集描述,GPT-4o生成简短描述
- 生成边界框和分割掩码: 使用Yolo-world和SAM2
- 生成多样化编辑提示: 使用GPT-4o
- 基于任务的编辑流程: 使用ComfyUI
- 数据质量过滤: 使用GPT-4o
数据格式
预处理数据格式(JSON)
python { "path": "图像路径", "cap": ["密集描述"], "resolution": {"height": 高度, "width": 宽度}, "aes": 美学评分, "tags": { "background": ["背景名词"], "object": ["物体名词"], "summary": "简短描述" }, "segmentation": { "background": [{ "class_name": "类别名称", "bbox": [边界框坐标], "mask": "掩码字符串", "score": "yoloworld分数", "clip_score": "clip分数", "aes_score": "区域美学分数" }], "object": [...], "box_format": "xyxy" } }
最终数据集格式(Parquet)
-
单轮任务: python { input_images: [输入图像路径], output_images: [输出图像路径], prompt: 编辑提示 }
-
多轮任务: python { data: [{ input_images: [输入图像路径], output_images: [输出图像路径], prompt: 编辑提示 }] }
数据集结构(Huggingface)
-
预处理数据集:
- laion-aes/: 过滤后的laion-aes图像tar文件
- jsons/: 包含描述、边界框和掩码的json文件
-
ImgEdit数据集:
- Multiturn/: 多轮图像数据
- Singleturn/: 单轮图像数据
- Parquet/: 所有任务的提示和图像路径
- ImgEdit_judge/: Qwen2.5-VL格式的模型检查点
- all_dataset_gpt_score.json: 所有后处理分数
基准测试(ImgEdit-Bench)
- 基础测试套件: 评估指令遵循、编辑质量和细节保留
- 理解-定位-编辑(UGE)套件: 评估空间推理和多对象目标等复杂任务
- 多轮测试套件: 评估内容理解、内容记忆和版本回溯
相关资源
- arXiv论文: https://arxiv.org/
- Huggingface数据集:
- https://huggingface.co/datasets/sysuyy/ImgEdit
- https://huggingface.co/datasets/sysuyy/ImgEdit_recap_mask
搜集汇总
数据集介绍

构建方式
在计算机视觉与图像处理领域,高质量数据集的构建是推动算法发展的关键。ImgEdit数据集通过多阶段流水线精心构建:首先基于Laion-aes数据集筛选美学评分高于4.75的样本,随后采用Qwen2.5VL-7B模型生成密集描述,并利用GPT-4o生成简洁标题。通过Yolo-world和SAM2模型生成边界框与分割掩码,结合CLIP模型进行过滤,最后运用GPT-4o生成多样化编辑提示,并通过ComfyUI完成基于任务的编辑流程,最终经过严格的质量过滤确保数据可靠性。
特点
作为图像编辑领域的前沿数据集,ImgEdit包含120万组经过严格筛选的编辑对,涵盖单轮编辑与多轮复杂任务两大类别。其显著特点在于:细分为10种单轮任务和3种多轮任务,提供对象级边界框与分割掩码标注,并包含密集描述与美学评分等丰富元数据。相较于现有数据集,ImgEdit在任务新颖性与数据质量方面具有明显优势,为训练视觉语言模型提供了更全面的监督信号。
使用方法
该数据集以Parquet格式存储,可通过Hugging Face库便捷加载。单轮任务数据包含原始图像路径、编辑后图像路径及对应提示文本;多轮任务数据则按编辑顺序组织为嵌套结构。研究人员可利用该数据集训练图像编辑模型,或通过ImgEdit-Bench进行性能评估。基准测试包含基础测试套件、理解-定位-编辑(UGE)套件和多轮编辑套件,从指令遵循、编辑质量和细节保持等维度提供标准化评估框架。
背景与挑战
背景概述
ImgEdit数据集由北京大学深圳研究生院、鹏城实验室及Rabbitpre AI的研究团队联合开发,于2025年正式发布。作为大规模高质量图像编辑数据集,其核心目标在于解决复杂单轮与多轮图像编辑任务中的指令理解与执行难题。该数据集包含120万组精细标注的编辑对,通过融合前沿视觉语言模型、检测模型及任务导向的修复流程,显著提升了编辑任务的多样性与数据质量。ImgEdit的推出为视觉内容生成领域提供了新的研究范式,其衍生的ImgEdit-E1模型在多项任务中超越现有开源方案,印证了数据构建方法的有效性。
当前挑战
在领域问题层面,ImgEdit需应对多模态指令对齐的挑战:编辑提示与视觉内容的精准映射要求模型同时具备空间推理、多目标处理及语义连贯性维护能力。数据构建过程中,研究团队面临三重技术壁垒:高审美标准样本筛选需平衡主观评价与客观指标;多模型协同标注易引发掩码边界模糊与属性描述冲突;多轮编辑任务的数据合成必须维持场景一致性,这对生成式模型的时序建模能力提出苛刻要求。此外,基准测试体系需设计跨维度评估指标,以量化模型在复杂指令执行与细节保留方面的性能。
常用场景
经典使用场景
在计算机视觉领域,ImgEdit数据集为图像编辑任务提供了丰富的资源。该数据集通过精心设计的单轮和多轮编辑任务,支持从简单的对象移除到复杂的场景重构等多种编辑需求。研究人员可以利用这些数据训练和评估模型在图像生成、修改和优化方面的能力,特别是在处理高分辨率图像时保持细节完整性方面表现出色。
解决学术问题
ImgEdit数据集有效解决了图像编辑研究中数据质量不高和任务多样性不足的问题。通过整合先进的视觉语言模型和严格的后处理流程,该数据集为研究指令遵循、编辑质量和细节保留等关键问题提供了可靠基准。其多阶段数据生成流程显著提升了合成数据的真实性和可用性,为图像编辑算法的创新奠定了坚实基础。
衍生相关工作
围绕ImgEdit数据集已衍生出多项重要研究,包括ImgEdit-E1编辑模型和ImgEdit-Bench评估基准。这些工作不仅验证了数据集的实用价值,还推动了图像编辑技术的发展。基于该数据集的对象检测和分割标注信息,研究者还开发了多个视觉语言模型,拓展了数据集在跨模态学习中的应用范围。
以上内容由遇见数据集搜集并总结生成



