five

ImgEdit

收藏
arXiv2025-05-27 更新2025-05-29 收录
下载链接:
https://github.com/PKU-YuanGroup/ImgEdit
下载链接
链接失效反馈
官方服务:
资源简介:
ImgEdit是一个大规模、高质量的图像编辑数据集,包含120万个精心策划的编辑对,包含新颖和复杂的单次编辑以及具有挑战性的多轮任务。为确保数据质量,我们采用了一个多阶段的数据生成流程,整合了最先进的视觉语言模型、检测模型、分割模型,以及特定任务的修复流程和严格的后期处理。ImgEdit在任务新颖性和数据质量方面都超越了现有数据集。使用ImgEdit,我们训练了ImgEdit-E1,这是一个使用视觉语言模型处理参考图像和编辑提示的编辑模型,在多个任务上优于现有的开源模型,突出了ImgEdit和模型设计的重要性。为了全面评估,我们引入了ImgEdit-Bench,这是一个旨在评估图像编辑性能的基准,包括基本测试套件、具有挑战性的单次编辑套件和专门的多轮编辑套件。我们评估了开源和专有模型,以及ImgEdit-E1,为当前图像编辑模型的行为提供了深入分析和可操作的见解。

ImgEdit is a large-scale, high-quality image editing dataset containing 1.2 million carefully curated editing pairs, covering novel and complex single-turn edits as well as challenging multi-turn tasks. To ensure data quality, we adopted a multi-stage data generation pipeline that integrates state-of-the-art vision-language models, detection models, segmentation models, task-specific inpainting workflows, and rigorous post-processing. ImgEdit outperforms existing datasets in terms of task novelty and data quality. Using ImgEdit, we trained ImgEdit-E1, an editing model that leverages vision-language models to process reference images and editing prompts, which outperforms existing open-source models across multiple tasks, highlighting the critical importance of ImgEdit and model design. For comprehensive evaluation, we introduced ImgEdit-Bench, a benchmark designed to assess image editing performance, which includes a basic test suite, a challenging single-turn editing suite, and a dedicated multi-turn editing suite. We evaluated open-source, proprietary models, and ImgEdit-E1, providing in-depth analysis and actionable insights into the behaviors of current image editing models.
提供机构:
北京大学深圳研究生院,鹏城实验室, Rabbitpre AI
创建时间:
2025-05-27
搜集汇总
数据集介绍
main_image_url
构建方式
ImgEdit数据集的构建采用了多阶段自动化流程,以确保数据的高质量和多样性。首先,从LAION-Aesthetics数据集中筛选出高分辨率(短边≥1280像素)且美学评分高于4.75的图像作为基础。随后,利用先进的视觉语言模型(如GPT-4o)生成对象级标注,并结合开放词汇检测器和视觉分割模型(如SAM2)对图像中的目标对象进行精确定位和分割。接着,通过任务特定的工作流程(如基于FLUX和SDXL的生成模型)生成编辑后的图像对,并采用严格的后期处理(如GPT-4o驱动的质量评分)进一步筛选数据。最终,数据集包含120万对高质量单轮编辑样本和11万对多轮交互样本,覆盖13种编辑类型。
特点
ImgEdit数据集在任务新颖性和数据质量上均显著超越现有数据集。其特点包括:(1)高分辨率图像(平均短边1280像素)和丰富的语义多样性(包含8700个独特词汇);(2)支持复杂编辑任务,如身份一致性保持、多对象同步操作和多轮交互编辑;(3)首次引入对象提取和视觉编辑等新型任务,填补了开源社区空白。数据质量通过GPT-4o评分(4.71/5)和伪造检测分数(0.05)双重验证,编辑区域占比(>40%)和视觉保真度均优于同类数据集。
使用方法
ImgEdit数据集配套提供了ImgEdit-Bench基准测试,包含基础编辑、理解-定位-编辑(UGE)和多轮编辑三大测试套件。使用时需注意:(1)单轮任务评估需按提示词类型(如添加/替换/混合编辑)分组测试,重点关注指令遵循度、编辑质量和细节保留三个维度;(2)多轮任务需验证模型的内容记忆、语义理解和版本回溯能力;(3)建议结合配套发布的ImgEdit-Judge评估模型(人类偏好对齐率70%)进行自动化评分。对于模型训练,数据集已按编辑类型分层,可直接用于微调生成模型或构建多任务学习框架。
背景与挑战
背景概述
ImgEdit数据集由北京大学深圳研究生院和Rabbitpre AI的研究团队于2025年5月推出,旨在解决开源图像编辑模型与专有模型之间的性能差距问题。该数据集包含120万对经过精心筛选的编辑图像对,涵盖了单轮和多轮复杂编辑任务。ImgEdit通过多阶段流水线确保数据质量,结合了前沿的视觉语言模型、检测模型和分割模型,以及任务特定的修复程序和严格的后处理。该数据集在任务新颖性和数据质量方面超越了现有数据集,为图像编辑领域的研究和应用提供了重要支持。
当前挑战
ImgEdit数据集面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,ImgEdit旨在解决图像编辑中的复杂任务,如保持身份一致性、同时操作多个对象以及多轮交互编辑。这些任务对模型的指令遵循能力、编辑质量和细节保留提出了极高要求。在构建过程中,挑战包括确保高分辨率图像的可用性、生成多样化和高质量的编辑提示,以及开发精确的评估指标来衡量模型的性能。此外,数据集中还需平衡不同编辑类型的分布,确保各类任务都能得到充分代表。
常用场景
经典使用场景
ImgEdit数据集在图像编辑领域具有广泛的应用场景,特别是在高保真度的文本引导图像编辑任务中表现突出。该数据集通过精心设计的单轮和多轮编辑任务,支持包括局部编辑(如添加、移除、替换对象)、全局编辑(如背景替换、风格迁移)以及复杂的混合编辑操作。其高质量的数据和多样化的编辑类型使其成为训练和评估图像编辑模型的理想选择,尤其在需要保持身份一致性的任务(如虚拟试穿)中表现卓越。
实际应用
在实际应用中,ImgEdit数据集被广泛用于开发智能图像编辑工具,支持用户通过自然语言指令实现精确的图像修改。例如,在电子商务中,可用于产品图像的自动化编辑(如更换背景或调整颜色);在创意设计中,支持多轮交互式编辑,满足复杂的设计需求。此外,其多轮编辑能力为教育、娱乐等领域的交互式应用提供了技术支持。
衍生相关工作
基于ImgEdit数据集,研究者开发了ImgEdit-E1模型,该模型在多项编辑任务中超越了现有开源模型。此外,ImgEdit-Bench作为配套的评估基准,推动了图像编辑模型的标准化评测。相关研究还探索了多模态大语言模型在编辑任务中的应用,进一步拓展了数据集的学术影响力。这些工作共同推动了图像编辑技术向实用化和高性能方向发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作