OmniEdit-Filtered-1.2M|图像编辑数据集|数据质量数据集
收藏OmniEdit 数据集概述
数据集简介
- 名称: OmniEdit
- 描述: OmniEdit 是一个全能的图像编辑模型,能够无缝处理七种不同的图像编辑任务,涵盖任意宽高比。该数据集通过专家模型的监督训练,确保任务覆盖全面。
数据集特点
- 任务覆盖: 数据集包含七种不同的图像编辑技能,包括添加、交换、移除、属性修改、背景更改、环境更改和风格转换。
- 数据质量: 使用基于大型多模态模型(如 GPT-4o)评分的重要性采样方法,而非传统的 CLIP-score,以提高数据质量。
- 数据规模: 数据集包含 1.2M 对图像编辑数据,经过 VIEScore 过滤。
数据集结构
- 数据合成: 数据集通过专家模型蒸馏合成,具体流程如下图所示: <p align="center"> <img src="https://huggingface.co/datasets/TIGER-Lab/OmniEdit-Filtered-1.2M/resolve/main/synthesis.png" width="800"> </p>
与其他数据集的比较
- 多样性和质量: OmniEdit 数据集在多样性和图像编辑对的质量方面优于其他数据集,支持任意分辨率。 <p align="center"> <img src="https://huggingface.co/datasets/TIGER-Lab/OmniEdit-Filtered-1.2M/resolve/main/comparison.png" width="800"> </p>
引用信息
-
引用格式:
@article{wei2024omniedit, title={OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision}, author={Wei, Cong and Xiong, Zheyang and Ren, Weiming and Du, Xinrun and Zhang, Ge and Chen, Wenhu}, journal={arXiv preprint arXiv:2411.07199}, year={2024} }

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录