five

AnyEdit|图像编辑数据集|多模态数据数据集

收藏
github2024-11-24 更新2024-11-28 收录
图像编辑
多模态数据
下载链接:
https://github.com/DCDmllm/AnyEdit
下载链接
链接失效反馈
资源简介:
AnyEdit是一个综合的多模态指令编辑数据集,包含250万个高质量编辑对,涵盖20种编辑类型和5个领域。数据集通过初始数据多样性、自适应编辑过程和编辑结果的自动选择来确保多样性和质量。使用该数据集,进一步训练了一种新型的AnyEdit Stable Diffusion模型,该模型具有任务感知路由和可学习的任务嵌入,用于统一图像编辑。
创建时间:
2024-11-22
原始信息汇总

AnyEdit 数据集概述

简介

AnyEdit 是一个综合的多模态指令编辑数据集,包含超过 250 万个高质量的编辑对,涵盖 20 种编辑类型,跨越五个领域。通过初始数据多样性、自适应编辑过程和编辑结果的自动选择,确保了 AnyEdit 集合的多样性和质量。使用该数据集,进一步训练了一种新的 AnyEdit Stable Diffusion 模型,该模型具有任务感知路由和可学习的任务嵌入,用于统一图像编辑。在三个基准数据集上的综合实验表明,AnyEdit 持续提升了基于扩散的编辑模型的性能,展示了开发支持人类创造力的指令驱动图像编辑模型的前景。

数据集概览

数据集将图像编辑任务分为五组,基于不同的编辑能力:

  • 局部编辑 (Local Editing):专注于基于区域的编辑。
  • 全局编辑 (Global Editing):专注于全范围的图像渲染。
  • 相机移动编辑 (Camera Move Editing):专注于视点的改变而非场景。
  • 隐式编辑 (Implicit Editing):需要常识知识来完成复杂的编辑。
  • 视觉编辑 (Visual Editing):包含额外的视觉输入,满足多模态编辑的需求。

数据集收集步骤

  1. 通用数据准备
  2. 多样化指令生成
  3. 自适应编辑流程
  4. 数据质量增强

指令格式

python { "edit": "change the airplane to green", # 编辑指令 "edited object": "airplane", # 编辑区域,仅用于局部编辑,否则为 None "input": "a small airplane sits stationary on a piece of concrete.", # 原始图像的描述 "output": "A green small airplane sits stationary on a piece of concrete.", # 编辑后图像的描述 "edit_type": "color_alter", # 编辑类型 "visual_input": "None", # 视觉输入的参考图像,否则为 None "image_file": "COCO_train2014_000000521165.jpg", # 原始图像文件 "edited_file": "xxxxx.png" # 编辑后图像文件 }

数据集设置

  1. 创建新的 Python 环境并下载预训练权重 bash bash setup.sh

  2. 下载所有候选数据集

  3. 指令生成(参考 CaptionsGenerator)

  4. 预过滤目标图像(编辑前) bash CUDA_VISIBLE_DEVICES=2 python pre_filter.py --instruction-path [xx.json] --instruction-type [] --image-root []

  5. 图像编辑(参考脚本以获取更多示例)

  6. 后过滤最终数据集 bash CUDA_VISIBLE_DEVICES=2 python post_filter.py --instruction-type []

项目文件夹结构

  • Datasets/
    • anyedit_datasets/
      • add
      • remove
      • replace
    • coco/
      • train2014/
        • 0.jpg
        • 1.jpg
    • flux_coco_images/
      • 0.jpg
      • 1.jpg
    • add_postfilter.json
    • remove_postfilter.json
    • replace_postfilter.json

编辑结果示例

部分Ⅰ

原始图像 编辑类型 编辑指令 编辑后图像
<img src="assert/example_figures/action_change_origin.jpg" width="250" height="250"> Action Change Make the action of the plane to taking off <img src="assert/example_figures/action_change_edit.jpg" width="250" height="250">
<img src="assert/example_figures/add_origin.jpg" width="250" height="250"> Add Include a candle on top of the cake <img src="assert/example_figures/add_edit.jpg" width="250" height="250">
<img src="assert/example_figures/appearance_alter_new_origin.jpg" width="250" height="250"> Appearance Alter Make the horses wearing garlands <img src="assert/example_figures/appearance_alter_new_edit.jpg" width="250" height="250">
<img src="assert/example_figures/background_change_new_origin.jpg" width="250" height="250"> Background Change Alter the background to a garden <img src="assert/example_figures/background_change_new_edit.jpg" width="250" height="250">
<img src="assert/example_figures/color_alter_origin.jpg" width="250" height="250"> Color Alter Alter the color of frame to orange <img src="assert/example_figures/color_alter_edit.jpg" width="250" height="250">
<img src="assert/example_figures/counting_origin.jpg" width="250" height="250"> Counting The number of camels increases to two <img src="assert/example_figures/counting_edit.jpg" width="250" height="250">
<img src="assert/example_figures/implicit_change_new_origin.jpg" width="250" height="250"> Implicit Change What will happen if the sun never go down? <img src="assert/example_figures/implicit_change_new_edit.jpg" width="250" height="250">
<img src="assert/example_figures/material_change_origin.jpg" width="250" height="250"> Material Change Change the material of kitten like aluminium_foil <img src="assert/example_figures/material_change_edit.jpg" width="250" height="250">
<img src="assert/example_figures/movement_origin.jpg" width="250" height="250"> Movement Shift the man in the image <img src="assert/example_figures/movement_edit.jpg" width="250" height="250">
<img src="assert/example_figures/outpaint_origin.jpg" width="250" height="250"> Outpaint Outpaint the image as you can <img src="assert/example_figures/outpaint_edit.jpg" width="250" height="250">
<img src="assert/example_figures/relation_origin.jpg" width="250" height="250"> Relation Place two yellow flowers in the middle of the table <img src="assert/example_figures/relation_edit.jpg" width="250" height="250">
<img src="assert/example_figures/remove_origin.jpg" width="250" height="250"> Remove Remove the person on skis <img src="assert/example_figures/remove_edit.jpg" width="250" height="250">
<img src="assert/example_figures/replace_origin.jpg" width="250" height="250"> Replace Replace the elephant with a seal <img src="assert/example_figures/replace_edit.jpg" width="250" height="250">
<img src="assert/example_figures/resize_origin.jpg" width="250" height="250"> Resize Zoom out the giraffes in the image <img src="assert/example_figures/resize_edit.jpg" width="250" height="250">
<img src="assert/example_figures/rotation_change_origin.jpg" width="250" height="250"> Rotation Change Turn the bag counterclockwise <img src="assert/example_figures/rotation_change_edit.jpg" width="250" height="250">
<img src="assert/example_figures/style_change_origin.jpg" width="250" height="250"> Style Change Change the style of the image to contrast <img src="assert/example_figures/style_change_edit.jpg" width="250" height="250">
<img src="assert/example_figures/textual_change_origin.jpg" width="250" height="250"> Textual Change Replace the text eddie with stobart <img src="assert/example_figures/textual_change_edit.jpg" width="250" height="250">
<img src="assert/example_figures/tune_transfer_origin.jpg" width="250" height="250"> Tune Transfer Change the season to autumn <img src="assert/example_figures/tune_transfer_edit.jpg" width="250" height="250">

部分Ⅱ

原始图像 参考图像 编辑类型 编辑指令 编辑后图像
<img src="assert/example_figures/visual_bbox_origin.jpg" width="250" height="250"> <img src="assert/example_figures/visual_bbox_visual_input.jpg" width="250" height="250"> Visual Bbox Follow the given bounding box [v*] to remove the skis <img src="assert/example_figures/visual_bbox_edit.jpg" width="250" height="250">
<img src="assert/example_figures/visual_depth_origin.jpg" width="250" height="250"> <img src="assert/example_figures/visual_depth_visual_input.jpg" width="250" height="250"> Visual Depth Refer to the given depth image [v*] to remove umbrella <img src="assert/example_figures/visual_depth_edit.jpg" width="250" height="250">
<img src="assert/example_figures/visual_material_transfer_new_origin.jpg" width="250" height="250"> <img src="assert/example_figures/visual_material_transfer_new_visual_input.jpg" width="250" height="250"> Visual Material Transfer Change the material of monument like linen <img src="assert/example_figures/visual_material_transfer_new_edit.jpg" width="250" height="250">
<img src="assert/example_figures/visual_reference_origin.jpg" width="250" height="250"> <img src="assert/example_figures/visual_reference_visual_input.jpg" width="250" height="250"> Visual Reference Replace the elephants to [v*] <img src="assert/example_figures/visual_reference_edit.jpg" width="250" height="250">
<img src="assert/example_figures/visual_scribble_origin.jpg" width="250" height="250"> <img src="assert/example_figures/visual_scribble_visual_input.jpg" width="250" height="250"> Visual Scribble Refer to the given scribble [v*] to replace the toilet paper with a book <img src="assert/example_figures/visual_scribble_edit.jpg" width="250" height="250">
<img src="assert/example_figures/visual_segment_origin.jpg" width="250" height="250"> <img src="assert/example_figures/visual_segment_visual_input.jpg" width="250" height="250"> Visual Segment Follow the given segment image [v*] to remove truck <img src="assert/example_figures/visual_segment_edit.jpg" width="250" height="250">
<img src="assert/example_figures/visual_sketch_origin.jpg" width="250" height="250"> <img src="assert/example_figures/visual_sketch_visual_input.jpg" width="250" height="250"> Visual Sketch Watch the given sketch [v*] to replace the bananas to apples <img src="assert/example_figures/visual_sketch_edit.jpg" width="250" height="250">
AI搜集汇总
数据集介绍
main_image_url
构建方式
AnyEdit数据集的构建过程体现了多层次的精心设计。首先,通过广泛的数据准备阶段,确保了初始数据的多样性。随后,采用多样化的指令生成方法,以覆盖多种编辑需求。在编辑过程中,引入了自适应编辑管道,确保每一步都能根据具体任务进行调整。最后,通过自动化的数据质量增强步骤,筛选出高质量的编辑结果,从而形成最终的数据集。
特点
AnyEdit数据集以其多模态和多样化的特点著称。该数据集包含了250万对高质量的编辑样本,涵盖了20种不同的编辑类型,跨越五个主要领域。其独特之处在于,不仅支持局部和全局编辑,还涉及视角变化、隐含编辑和视觉输入等多种复杂编辑任务。此外,数据集的构建过程中,特别强调了指令的多样性和编辑结果的质量,确保了数据集在训练和评估中的广泛适用性。
使用方法
使用AnyEdit数据集时,首先需创建一个新的Python环境,并下载预训练权重。接着,下载所有候选数据集,并使用提供的脚本生成指令。在编辑前,通过预过滤步骤筛选目标图像,确保编辑任务的有效性。随后,进行图像编辑,并使用后过滤步骤对最终数据集进行质量控制。数据集的文件结构清晰,便于用户根据需求进行定制化编辑和分析。
背景与挑战
背景概述
AnyEdit数据集是由一支专注于图像编辑领域的研究团队创建的,旨在解决统一高质量图像编辑的问题。该数据集包含了250万对高质量编辑样本,涵盖了超过20种编辑类型,并跨越五个不同的领域。AnyEdit的构建通过三个主要方面确保了数据的多样性和质量:初始数据的多样性、适应性编辑过程以及编辑结果的自动化选择。该数据集不仅为图像编辑模型的训练提供了丰富的资源,还展示了指令驱动图像编辑模型在支持人类创造力方面的潜力。
当前挑战
AnyEdit数据集在构建过程中面临多项挑战。首先,确保初始数据的多样性是一个复杂的过程,需要从多个来源收集和整合数据。其次,适应性编辑过程要求高效的算法来处理不同类型的编辑任务,这涉及到对图像和指令的精确理解与操作。最后,自动化选择编辑结果需要强大的评估机制,以确保生成的图像质量符合预期标准。此外,该数据集还需应对多模态编辑任务的复杂性,这要求模型能够处理和整合视觉输入与文本指令。
常用场景
经典使用场景
AnyEdit数据集在图像编辑领域中展现了其卓越的应用潜力。通过提供多样化的编辑指令和高质量的编辑结果,该数据集支持了多种图像编辑任务,包括局部编辑、全局编辑、相机移动编辑、隐式编辑和视觉编辑。这些任务涵盖了从简单的颜色调整到复杂的场景重构,为研究人员和开发者提供了丰富的资源,以训练和评估图像编辑模型。
解决学术问题
AnyEdit数据集解决了图像编辑领域中常见的学术研究问题,如编辑指令的多样性和复杂性、编辑结果的质量和一致性等。通过提供250万个高质量的编辑对,该数据集显著提升了扩散模型在图像编辑任务中的表现,推动了指令驱动图像编辑模型的发展,为支持人类创造力的图像编辑技术奠定了基础。
衍生相关工作
基于AnyEdit数据集,许多经典工作得以展开。例如,研究人员利用该数据集训练了AnyEdit Stable Diffusion模型,该模型通过任务感知路由和可学习的任务嵌入,实现了统一的图像编辑。此外,AnyEdit还启发了多模态图像编辑技术的研究,推动了图像编辑领域的技术进步和创新。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

CosyVoice 2

CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集,旨在通过大规模多语言数据集训练,实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率,并结合预训练的大型语言模型作为骨干,支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域,旨在解决高延迟和低自然度的问题,提供接近人类水平的语音合成质量。

arXiv 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录