five

AnyEdit

收藏
Hugging Face2024-12-14 更新2024-12-15 收录
下载链接:
https://huggingface.co/datasets/Bin1117/AnyEdit
下载链接
链接失效反馈
官方服务:
资源简介:
AnyEdit数据集是一个综合的多模态指令编辑数据集,包含250万高质量的编辑对,涵盖25种编辑类型和五个领域。数据集根据不同的编辑能力分为五组:局部编辑、全局编辑、相机移动编辑、隐式编辑和视觉编辑。该数据集旨在用于文本到图像和基于指令的图像编辑研究,主要面向计算机视觉、图像生成、图像处理和AIGC领域的研究人员和爱好者。数据集包含image_id、edit_instruction、edit_type、image_file、edited_file、visual_input、input和output等特征。数据集为英文,并采用cc-by-4.0许可。

The AnyEdit dataset is a comprehensive multimodal instruction-based editing dataset containing 2.5 million high-quality editing pairs, covering 25 editing types across five domains. It is divided into five groups based on distinct editing capabilities: local editing, global editing, camera motion editing, implicit editing, and visual editing. This dataset is intended for research on text-to-image and instruction-based image editing, targeting researchers and enthusiasts in the fields of computer vision, image generation, image processing, and AIGC. It includes features such as image_id, edit_instruction, edit_type, image_file, edited_file, visual_input, input, and output. The dataset is in English and licensed under CC BY 4.0.
创建时间:
2024-12-12
原始信息汇总

AnyEdit 数据集概述

数据集描述

AnyEdit 是一个综合的多模态指令编辑数据集,包含 250 万高质量编辑对,涵盖 25 种编辑类型和五个领域。该数据集旨在通过自然语言指令修改特定图像元素,主要用于文本到图像和指令驱动的图像编辑研究。

数据集详情

特征

  • image_id: 字符串类型,图像的唯一标识符。
  • edit_instruction: 字符串类型,编辑指令。
  • edit_type: 字符串类型,编辑类型。
  • image_file: 图像类型,原始图像文件。
  • edited_file: 图像类型,编辑后的图像文件。
  • visual_input: 图像类型,视觉输入图像(用于多模态编辑)。
  • input: 字符串类型,原始图像的描述。
  • output: 字符串类型,编辑后图像的描述。

数据集划分

  • validation: 包含 5000 个样本,数据大小为 975424085 字节。
  • train: 包含 2504683 个样本,数据大小为 170705820774.855 字节。

数据集大小

  • 下载大小: 218175371035 字节。
  • 数据集大小: 171681244859.855 字节。

配置

  • default: 包含训练和验证数据文件。

任务类别

  • 文本到图像
  • 图像到图像

语言

  • 英语

标签

  • 艺术

数据集结构

数据集文件结构如下:

├── anyedit_datasets │   ├── train (~2.5M) │   │   ├── remove │   │   ├── background_change │   │   ├── rotation_change │   │   ├── visual_material_transfer │   │   └── ... │   ├── validation (5000) │   ├── anyedit-test (1250)

使用示例

python from datasets import load_dataset from PIL import Image

加载数据集

ds = load_dataset("Bin1117/AnyEdit")

打印样本总数并显示第一个样本

print(f"Total number of samples: {len(ds[train])}") print("First sample in the dataset:", ds[train][0])

获取第一个样本的数据

data_dict = ds[train][0]

保存原始图像

input_img = data_dict[image_file] input_img.save(input_image.jpg) print("Saved input image as input_image.jpg.")

保存编辑后的图像

output_img = data_dict[edited_file] output_img.save(edited_image.jpg) print("Saved output image as edited_image.jpg.")

保存视觉输入图像(如果有)

if data_dict[visual_input] is not None: visual_img = data_dict[visual_input] visual_img.save(visual_input.jpg)

引用

bibtex @misc{yu2024anyeditmasteringunifiedhighquality, title={AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea}, author={Qifan Yu and Wei Chow and Zhongqi Yue and Kaihang Pan and Yang Wu and Xiaoyang Wan and Juncheng Li and Siliang Tang and Hanwang Zhang and Yueting Zhuang}, year={2024}, eprint={2411.15738}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2411.15738}, }

搜集汇总
数据集介绍
main_image_url
构建方式
AnyEdit数据集的构建基于对图像编辑任务的全面分类,涵盖了五种不同的编辑能力:局部编辑、全局编辑、相机移动编辑、隐式编辑和视觉编辑。这些编辑任务通过自然语言指令进行描述,并配以高质量的图像对,形成了250万对编辑样本,跨越25种编辑类型和五个领域。数据集的构建旨在解决现有模型在执行复杂用户指令时的不足,提供了一个多模态、高质量的编辑数据集。
特点
AnyEdit数据集的主要特点在于其多模态性和高质量的编辑样本。数据集不仅包含了图像和编辑指令,还引入了视觉输入,以支持更复杂的编辑任务。此外,数据集的编辑类型多样,涵盖了从颜色修改到场景变换等多种操作,使其在图像编辑领域的研究中具有广泛的应用潜力。
使用方法
使用AnyEdit数据集时,用户可以通过HuggingFace的datasets库加载数据集,并访问图像文件、编辑指令、编辑类型等信息。数据集的结构清晰,用户可以轻松获取原始图像和编辑后的图像,并根据需要进行进一步的处理和分析。通过提供的示例代码,用户可以快速上手,进行图像编辑相关的研究和实验。
背景与挑战
背景概述
在图像编辑领域,基于指令的图像编辑旨在通过自然语言指令对图像进行特定修改。然而,现有模型在这一领域的表现往往不尽如人意,主要原因在于训练数据的质量较低且编辑类型有限。为了应对这一挑战,**AnyEdit**数据集应运而生,由浙江大学的Qifan Yu等人于2024年创建。该数据集包含了250万对高质量的编辑样本,涵盖25种编辑类型和五个不同领域,旨在推动基于指令的图像编辑研究。AnyEdit的发布不仅丰富了多模态编辑任务的数据资源,还为计算机视觉、图像生成和图像处理等领域的研究提供了新的可能性。
当前挑战
AnyEdit数据集在构建过程中面临多项挑战。首先,如何确保编辑指令的多样性和复杂性,以训练模型能够处理各种复杂的用户需求,是一个关键问题。其次,数据集的构建需要跨越多个领域,包括局部编辑、全局编辑、相机移动编辑、隐式编辑和视觉编辑,这要求研究人员具备跨领域的专业知识。此外,数据集的质量控制也是一个重要挑战,确保每对编辑样本的高质量以避免模型训练中的噪声干扰。最后,如何有效地标注和分类这些编辑类型,以便于模型的训练和评估,也是构建过程中的一大难题。
常用场景
经典使用场景
AnyEdit数据集的经典使用场景主要集中在基于自然语言指令的图像编辑任务中。该数据集通过提供250万对高质量的编辑样本,涵盖了25种不同的编辑类型和五个领域,为研究者提供了一个全面的资源库。这些样本包括图像的局部编辑、全局编辑、视角变化、隐式编辑以及多模态编辑,使得研究者能够在复杂的编辑任务中训练和评估模型,从而提升模型的编辑精度和泛化能力。
解决学术问题
AnyEdit数据集解决了当前图像编辑模型在处理复杂自然语言指令时表现不佳的问题。传统的图像编辑模型通常依赖于低质量的数据和有限的编辑类型,导致其在执行复杂编辑任务时精度不足。AnyEdit通过提供高质量、多样化的编辑样本,帮助研究者开发能够准确执行复杂指令的模型,推动了图像编辑领域的技术进步。
衍生相关工作
AnyEdit数据集的发布催生了一系列相关的经典工作。研究者们基于该数据集开发了多种先进的图像编辑模型,这些模型在处理复杂编辑任务时表现出色。例如,有研究提出了基于AnyEdit的多模态编辑模型,能够同时处理图像和文本输入,显著提升了编辑的精度和效率。此外,还有研究探讨了如何利用AnyEdit数据集进行跨领域的图像编辑任务,进一步拓展了该数据集的应用范围。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作