UCSC-VLAA/HQ-Edit

Name: UCSC-VLAA/HQ-Edit
Creator: UCSC-VLAA
Published: 2024-04-17 19:40:48
License: 暂无描述

Hugging Face2024-04-17 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/UCSC-VLAA/HQ-Edit

下载链接

链接失效反馈

官方服务：

资源简介：

HQ-Edit是一个高质量的指令式图像编辑数据集，包含总共197,350次编辑。与依赖属性指导或人类反馈构建数据集的传统方法不同，我们设计了一个利用GPT-4V和DALL-E 3等高级基础模型的可扩展数据收集管道。HQ-Edit的高分辨率图像，细节丰富并伴随全面的编辑提示，显著增强了现有图像编辑模型的能力。

HQ-Edit is a high-quality instructional image editing dataset containing a total of 197,350 editing instances. Unlike traditional methods that build datasets relying on attribute guidance or human feedback, we designed a scalable data collection pipeline that leverages advanced foundation models such as GPT-4V and DALL-E 3. The high-resolution, detail-rich images paired with comprehensive editing prompts in HQ-Edit significantly enhance the capabilities of existing image editing models.

提供机构：

UCSC-VLAA

原始信息汇总

数据集概述

名称： HQ-Edit

描述： HQ-Edit是一个高质量的基于指令的图像编辑数据集，包含197,350次编辑。该数据集利用先进的模型GPT-4V和DALL-E 3构建，提供高分辨率图像和详细的编辑指令，显著增强了现有图像编辑模型的能力。

语言： 英语（en）

规模： 10万<n<100万

许可： CC-BY-NC-4.0

数据集结构

input (字符串): 输入图像的描述。
input_image (图像): 输入图像。
edit (字符串): 将输入图像转换为输出图像的编辑指令。
inverse_edit (字符串): 将输出图像转换回输入图像的逆向编辑指令。
output (字符串): 输出图像的描述。
output_image (图像): 输出图像。

数据集分割

训练集： 包含98,675个示例。

引用信息

若使用此数据集，请引用以下论文：

@article{hui2024hq, title = {HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing}, author = {Hui, Mude and Yang, Siwei and Zhao, Bingchen and Shi, Yichun and Wang, Heng and Wang, Peng and Zhou, Yuyin and Xie, Cihang}, journal = {arXiv preprint arXiv:2404.09990}, year = {2024} }

搜集汇总

数据集介绍

构建方式

UCSC-VLAA/HQ-Edit数据集的构建采用了一种创新的数据收集管道，该管道借助先进的基模型GPT-4V和DALL-E 3，实现了大规模的数据采集。此数据集包含了197,350个编辑，每个编辑都是由高分辨率图像和详尽的编辑指令组成，这些图像和指令共同构成了数据集的核心内容。

特点

该数据集的特点在于其高质量和丰富的细节。它不仅包含了输入和输出图像，还提供了相应的编辑指令及其逆向指令，这为图像编辑模型提供了全面而具体的指导。此外，数据集的图像分辨率高，细节丰富，有助于提升现有图像编辑模型的性能。

使用方法

用户可以通过HuggingFace的Dataset Viewer在线预览UCSC-VLAA/HQ-Edit数据集。数据集的 splits 包括训练集，共98,675个样本。用户可以根据需要，利用数据集中的输入图像、编辑指令以及输出图像进行模型训练、评估和测试。在使用数据集时，需遵守cc-by-nc-4.0版权协议。

背景与挑战

背景概述

在图像编辑领域，UCSC-VLAA/HQ-Edit数据集标志着一次重要的技术进步，由Mude Hui等人于2024年创建。该数据集通过运用先进的预训练模型GPT-4V和DALL-E 3，构建了一个可扩展的数据收集流程，旨在提升图像编辑模型的性能。数据集包含197,350个高质量编辑，其特色在于高分辨率图像和详尽的编辑提示，这些特性极大地增强了现有图像编辑模型的处理能力。该数据集的问世，对图像编辑研究产生了深远影响，推动了相关技术的发展。

当前挑战

UCSC-VLAA/HQ-Edit数据集在构建过程中面临了多重挑战。首先，如何确保数据收集流程的可持续性和编辑指令的准确性是一个关键问题。其次，数据集需要解决如何平衡图像质量与数据量的关系，以保证模型训练的有效训练。此外，编辑指令的可逆性增加了数据构建的复杂性，要求输出图像能够精确还原至原始状态。这些挑战不仅考验了数据集构建者的技术能力，也推动了图像编辑领域的创新解决方案的发展。

常用场景

经典使用场景

在图像处理与编辑领域，UCSC-VLAA/HQ-Edit数据集以其高分辨率图像和详尽的编辑提示，成为提升现有图像编辑模型能力的宝贵资源。该数据集的经典使用场景在于，研究者可通过其中的输入图像、编辑指令以及输出图像，训练模型以学习执行复杂的图像编辑任务，如风格转换、色彩调整等，从而实现自动化的图像编辑流程。

实际应用

在实际应用中，UCSC-VLAA/HQ-Edit数据集可用于改进图像处理软件的自动化编辑功能，使得普通用户能够通过简单的文本指令实现专业级别的图像编辑效果，广泛应用于广告设计、摄影后期等领域，极大地提升了工作效率。

衍生相关工作

基于UCSC-VLAA/HQ-Edit数据集，研究者们衍生出了一系列相关工作，如编辑指令的优化算法、图像编辑效果的评估方法等。这些工作不仅推动了图像编辑技术的进步，也为相关领域的理论研究提供了新的视角和数据基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集