five

AILab-CVC/SEED-Data-Edit-Part1-Unsplash

收藏
Hugging Face2024-05-05 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/AILab-CVC/SEED-Data-Edit-Part1-Unsplash
下载链接
链接失效反馈
官方服务:
资源简介:
SEED-Data-Edit是一个用于指令引导图像编辑的混合数据集,总共包含3.7百万个图像编辑对。数据集分为三部分:第一部分是通过自动化管道生成的大规模高质量编辑数据(3.5百万对);第二部分是从互联网收集的真实场景数据(52千对);第三部分是由人类标注的高精度多轮编辑数据(95千对,21千多轮,最多5轮)。数据集的图像来源包括Unsplash、Openimages、Photoshopbattles、Photoshop gurus、Photoshoprequest、Zhopped、SAM和JourneyDB。数据集仅用于非商业研究目的,使用CC-BY-NC-4.0许可证。
提供机构:
AILab-CVC
原始信息汇总

SEED-Data-Edit 数据集概述

数据集描述

SEED-Data-Edit 是一个用于指令引导图像编辑的混合数据集,包含总共 3.7 万个图像编辑对。该数据集由三种不同类型的数据组成:

  • Part-1: 由自动化流水线生成的大规模高质量编辑数据(350 万个编辑对)。
  • Part-2: 从互联网收集的真实场景数据(5.2 万个编辑对)。
  • Part-3: 由人工标注的高精度多轮编辑数据(9.5 万个编辑对,2.1 万个多轮回合,最多 5 轮)。

本仓库包含 SEED-Data-Edit 的 Part-1 部分,源图像来自 Unsplash

数据处理

下载数据后,需要将分割文件重新组装成原始的 .tar.gz 文件,然后解压。具体操作如下:

bash cat unsplash_images.tar.gz.part-* > unsplash_images.tar.gz

数据标注

  • annotations 文件夹包含原始指令。
  • annotations_GPT4V 文件夹存储由 GPT-4V 重写的一小部分指令。

许可证

SEED-Data-Edit 数据集在 CC-BY-NC-4.0 许可证下发布,仅用于非商业研究目的。任何商业用途的使用均被严格禁止。

图像来源

腾讯不持有这些图像的版权,版权归原始所有者所有。如有任何图像侵犯您的权利,请立即与我们联系,我们将及时移除相应数据。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作