five

text-to-image-2M|文本到图像生成数据集|模型微调数据集

收藏
huggingface2024-09-14 更新2024-12-12 收录
文本到图像生成
模型微调
下载链接:
https://huggingface.co/datasets/jackyhate/text-to-image-2M
下载链接
链接失效反馈
资源简介:
text-to-image-2M是一个精选的文本图像对数据集,设计用于微调文本到图像模型。该数据集包含约200万样本,精心挑选和增强以满足文本到图像模型训练的高要求。数据集由多个高质量子集组成,包括data_512_2M和data_1024_10K。data_512_2M包含约200万512x512像素的微调数据,而data_1024_10K包含10,000个高质量、高分辨率的数据,用于高分辨率适应。数据集的构建结合了现有的高质量数据集,并使用最先进的文本到图像和字幕模型进行增强。数据集的格式为WebDataset,可以通过HuggingFace的datasets库轻松访问和使用。
创建时间:
2024-09-11
原始信息汇总

text-to-image-2M: A High-Quality, Diverse Text-to-Image Training Dataset

Overview

text-to-image-2M 是一个用于微调文本到图像模型的精选文本图像对数据集。该数据集包含约200万个样本,经过精心选择和增强,以满足文本到图像模型训练的高要求。创建此数据集的动机是观察到超过100万个样本的数据集往往能产生更好的微调结果。然而,现有的公开数据集通常存在以下限制:

  • 图像理解数据集:无法保证图像质量。
  • 非正式收集或任务特定数据集:类别不平衡或缺乏多样性。
  • 大小限制:可用数据集要么太小,要么太大(从大数据集中抽取的子集通常缺乏多样性)。

为了解决这些问题,我们结合并增强了现有的高质量数据集,使用最先进的文本到图像和字幕生成模型创建了text-to-image-2M。这包括data_512_2M,一个200万512x512微调数据集和data_1024_10K,一个10K高质量、高分辨率数据集(用于高分辨率适应)。

Dataset Composition

data_512_2M

该数据集由几个高质量子集组成,详细如下:

Source Samples Prompts Images
LLaVA-next fine-tuning dataset ~700K 使用Qwen2-VL重新标注 原始图像
LLaVA-pretrain dataset(TODO) ~500K 原始提示 Flux-dev生成的图像
ProGamerGov synthetic dataset (DALL·E 3) ~900K 过滤有效性 中心裁剪和有效性过滤的图像
GPT-4o generated dataset 100K GPT-4o生成 Flux-dev生成的图像

data_1024_10K

由Flux-dev生成的10K图像,提示由GPT-4o生成。

Usage

该数据集使用WebDataset格式,可以通过HuggingFace的datasets库轻松访问和使用,如下所示:

python from datasets import load_dataset base_url = "https://huggingface.co/datasets/jackyhate/text-to-image-2M/resolve/main/data_512_2M/data_{i:06d}.tar" num_shards = 35 # Number of webdataset tar files urls = [base_url.format(i=i) for i in range(num_shards)] dataset = load_dataset("webdataset", data_files={"train": urls}, split="train", streaming=True)

Example of iterating through the dataset

for image in dataset: print(image) # single image in row with associated columns break

  • 注意,只要在上述示例中streaming=True,数据集就不必完全下载。

Acknowledgments

该数据集建立在多个开源项目的基础上,包括:

  • LLaVA-next fine-tuning dataset
  • LLaVA-pretrain dataset
  • ProGamerGov synthetic dataset (DALL·E 3)
  • GPT-4o
  • Flux-1.0-dev

我们感谢这些数据集和模型的贡献者,使这个项目成为可能。

AI搜集汇总
数据集介绍
main_image_url
构建方式
text-to-image-2M数据集的构建基于对现有高质量数据集的整合与增强,旨在解决现有数据集在图像质量、类别平衡和多样性方面的不足。通过结合LLaVA-next、LLaVA-pretrain、ProGamerGov合成数据集以及GPT-4o生成的数据,该数据集采用了先进的文本到图像和图像描述模型进行优化。具体而言,data_512_2M包含了约200万样本,涵盖了重新标注的图像和生成的图像,而data_1024_10K则提供了1万张高分辨率图像,专为高分辨率模型适配设计。
特点
text-to-image-2M数据集以其高质量和多样性著称,涵盖了广泛的图像类别和文本描述。其核心优势在于样本的精心筛选与增强,确保了图像与文本对的高匹配度。此外,数据集的规模适中,既避免了过小数据集带来的多样性不足,也规避了过大数据集可能导致的冗余问题。data_512_2M提供了512x512分辨率的图像,而data_1024_10K则提供了更高分辨率的图像,满足不同模型训练的需求。
使用方法
text-to-image-2M数据集采用WebDataset格式,用户可通过HuggingFace的datasets库轻松访问。通过指定数据文件的URL,用户可以选择流式加载数据,避免一次性下载整个数据集。示例代码展示了如何加载数据集并迭代访问单张图像及其关联信息。这种流式加载方式特别适合大规模数据集的训练场景,能够有效节省存储空间和加载时间。
背景与挑战
背景概述
text-to-image-2M数据集是由多个高质量子集组合而成,旨在为文本到图像模型的微调提供支持。该数据集由约200万样本构成,涵盖了从LLaVA-next微调数据集、LLaVA预训练数据集、ProGamerGov合成数据集到GPT-4o生成数据集等多个来源。这些数据经过精心筛选和增强,以满足文本到图像模型训练的高要求。数据集的创建源于对大规模数据集在模型微调中表现优越的观察,而现有公开数据集往往在图像质量、类别平衡和多样性方面存在不足。text-to-image-2M的推出填补了这一空白,为相关领域的研究提供了重要的数据支持。
当前挑战
text-to-image-2M数据集在构建过程中面临多重挑战。首先,数据集的多样性要求极高,需要从多个来源整合数据,并确保图像和文本对的质量一致性。其次,数据集的规模庞大,处理和管理数百万样本的计算资源需求巨大。此外,数据集的生成依赖于先进的文本到图像模型和标注模型,如GPT-4o和Flux-dev,这些模型的使用和优化本身也带来了技术挑战。最后,数据集的格式和访问方式需要兼顾高效性和易用性,WebDataset格式的选择虽然解决了这一问题,但在实际应用中仍需克服流式数据处理的技术难题。
常用场景
经典使用场景
在文本到图像生成领域,`text-to-image-2M`数据集被广泛应用于模型的微调与优化。该数据集包含约200万条高质量的文本-图像对,能够有效提升生成模型的多样性与准确性。研究人员通常利用该数据集进行生成对抗网络(GAN)和扩散模型(Diffusion Models)的训练,以生成更具视觉吸引力和语义一致性的图像。
解决学术问题
`text-to-image-2M`数据集解决了现有文本到图像生成研究中数据质量与多样性不足的问题。通过整合多个高质量子集,并结合先进的文本生成与图像生成技术,该数据集显著提升了生成模型的性能。其多样化的数据分布和高质量标注为研究复杂场景下的图像生成提供了有力支持,推动了生成模型在语义理解与视觉表现上的突破。
衍生相关工作
基于`text-to-image-2M`数据集,许多经典研究工作得以展开。例如,研究人员开发了基于扩散模型的高分辨率图像生成算法,显著提升了生成图像的细节表现力。此外,该数据集还被用于多模态学习的研究,推动了文本与图像之间的跨模态理解与生成技术的发展。这些工作不仅扩展了数据集的应用范围,也为相关领域的研究提供了新的方向。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

Online Retail II

该在线零售II数据集包含了一家英国注册的非实体店铺在线零售商在2009年12月1日至2011年12月9日期间发生的所有交易记录。该公司主要销售各种场合的独特礼品。该公司的许多客户是批发商。

github 收录