GeroldMeisinger/laion2b-en-a65_cogvlm2-4bit_captions

Name: GeroldMeisinger/laion2b-en-a65_cogvlm2-4bit_captions
Creator: GeroldMeisinger
Published: 2024-07-20 14:55:09
License: 暂无描述

Hugging Face2024-07-20 更新2024-06-25 收录

下载链接：

https://hf-mirror.com/datasets/GeroldMeisinger/laion2b-en-a65_cogvlm2-4bit_captions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含使用CogVLM2-4bit模型为`laion2B-en aesthetics>=6.5`图像数据集生成的图像描述，并使用`stable-diffusion-3-medium`模型生成新的合成图像。数据集的目标是评估CogVLM2模型、Stable Diffusion 3训练中使用的提示词、图像生成的一致性等。文件结构包括图像描述文件和生成的图像文件。README还提供了如何复制数据集的详细步骤，包括下载原始数据集、安装相关工具、生成合成图像等。

提供机构：

GeroldMeisinger

原始信息汇总

数据集概述

基本信息

许可证: cc-by-nc-sa-4.0
语言: 英语
数据规模: 10K<n<100K
任务类别:
- 图像分类
- 文本到图像
- 图像到文本
标签:
- CogVLM2
- CogVLM2-4bit
- laion2b-en-a65
- laion-pop
- stable-diffusion-3-medium
美观名称: laion2B-en aesthetics>=6.5 CogVLM2-4bit captions

数据集内容

原始图像 (未包含): 635561 (64部分，每部分约10000张)
过滤和去重后的图像 (未包含): 111486
原始图像的图像描述: 13141 (仅部分00000-00004)
从描述生成的图像: 8x 2752 = 22016 (仅部分00000)
从合成图像生成的图像描述: 3x 2752 = 8256

任务

评估CogVML2
评估用于Stable Diffusion 3训练的提示
评估Stable Diffusion 3的图像生成和提示内一致性
评估Stable Diffusion 3的提示理解和一致性
评估Stable Diffusion 3的参数化
比较生成的描述与原始图像
比较生成的描述与原始替代文本
比较原始与合成图像的生成描述
在带有合成描述的图像上训练模型

文件结构

00000...00004/ # CogVML2-4bit对laion2b-en-a65图像的描述 000000001.txt 000000002.txt ...

images_stable-diffusion-3-medium_q80/ # 生成的图像（质量=80%） cfg_30, cfg_45, cfg_60 # 使用的cfg值 bosh3, dpmpp_2m, euler # 使用的采样器 steps_15, steps_20, steps_28 # 使用的步长 000000001_0.webp # 批次编号0 ... 000000001_7.webp

captions2images.py # 将提示发送到ComfyUI以从描述生成图像 images2grid.py # 将生成的图像显示为2x2或3x3网格 images2reencode.py # 将生成的图像压缩为有损 workflow_api.json # ComfyUI的工作流程

5,000+

优质数据集

54 个

任务类型

进入经典数据集