GeroldMeisinger/laion2b-en-a65_cogvlm2-4bit_captions
收藏Hugging Face2024-07-20 更新2024-06-25 收录
下载链接:
https://hf-mirror.com/datasets/GeroldMeisinger/laion2b-en-a65_cogvlm2-4bit_captions
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含使用CogVLM2-4bit模型为`laion2B-en aesthetics>=6.5`图像数据集生成的图像描述,并使用`stable-diffusion-3-medium`模型生成新的合成图像。数据集的目标是评估CogVLM2模型、Stable Diffusion 3训练中使用的提示词、图像生成的一致性等。文件结构包括图像描述文件和生成的图像文件。README还提供了如何复制数据集的详细步骤,包括下载原始数据集、安装相关工具、生成合成图像等。
该数据集包含使用CogVLM2-4bit模型为`laion2B-en aesthetics>=6.5`图像数据集生成的图像描述,并使用`stable-diffusion-3-medium`模型生成新的合成图像。数据集的目标是评估CogVLM2模型、Stable Diffusion 3训练中使用的提示词、图像生成的一致性等。文件结构包括图像描述文件和生成的图像文件。README还提供了如何复制数据集的详细步骤,包括下载原始数据集、安装相关工具、生成合成图像等。
提供机构:
GeroldMeisinger
原始信息汇总
数据集概述
基本信息
- 许可证: cc-by-nc-sa-4.0
- 语言: 英语
- 数据规模: 10K<n<100K
- 任务类别:
- 图像分类
- 文本到图像
- 图像到文本
- 标签:
- CogVLM2
- CogVLM2-4bit
- laion2b-en-a65
- laion-pop
- stable-diffusion-3-medium
- 美观名称: laion2B-en aesthetics>=6.5 CogVLM2-4bit captions
数据集内容
- 原始图像 (未包含): 635561 (64部分,每部分约10000张)
- 过滤和去重后的图像 (未包含): 111486
- 原始图像的图像描述: 13141 (仅部分00000-00004)
- 从描述生成的图像: 8x 2752 = 22016 (仅部分00000)
- 从合成图像生成的图像描述: 3x 2752 = 8256
任务
- 评估CogVML2
- 评估用于Stable Diffusion 3训练的提示
- 评估Stable Diffusion 3的图像生成和提示内一致性
- 评估Stable Diffusion 3的提示理解和一致性
- 评估Stable Diffusion 3的参数化
- 比较生成的描述与原始图像
- 比较生成的描述与原始替代文本
- 比较原始与合成图像的生成描述
- 在带有合成描述的图像上训练模型
文件结构
00000...00004/ # CogVML2-4bit对laion2b-en-a65图像的描述 000000001.txt 000000002.txt ...
images_stable-diffusion-3-medium_q80/ # 生成的图像(质量=80%) cfg_30, cfg_45, cfg_60 # 使用的cfg值 bosh3, dpmpp_2m, euler # 使用的采样器 steps_15, steps_20, steps_28 # 使用的步长 000000001_0.webp # 批次编号0 ... 000000001_7.webp
captions2images.py # 将提示发送到ComfyUI以从描述生成图像 images2grid.py # 将生成的图像显示为2x2或3x3网格 images2reencode.py # 将生成的图像压缩为有损 workflow_api.json # ComfyUI的工作流程



