five

GeroldMeisinger/laion2b-en-a65_cogvlm2-4bit_captions

收藏
Hugging Face2024-07-20 更新2024-06-25 收录
下载链接:
https://hf-mirror.com/datasets/GeroldMeisinger/laion2b-en-a65_cogvlm2-4bit_captions
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含使用CogVLM2-4bit模型为`laion2B-en aesthetics>=6.5`图像数据集生成的图像描述,并使用`stable-diffusion-3-medium`模型生成新的合成图像。数据集的目标是评估CogVLM2模型、Stable Diffusion 3训练中使用的提示词、图像生成的一致性等。文件结构包括图像描述文件和生成的图像文件。README还提供了如何复制数据集的详细步骤,包括下载原始数据集、安装相关工具、生成合成图像等。

该数据集包含使用CogVLM2-4bit模型为`laion2B-en aesthetics>=6.5`图像数据集生成的图像描述,并使用`stable-diffusion-3-medium`模型生成新的合成图像。数据集的目标是评估CogVLM2模型、Stable Diffusion 3训练中使用的提示词、图像生成的一致性等。文件结构包括图像描述文件和生成的图像文件。README还提供了如何复制数据集的详细步骤,包括下载原始数据集、安装相关工具、生成合成图像等。
提供机构:
GeroldMeisinger
原始信息汇总

数据集概述

基本信息

  • 许可证: cc-by-nc-sa-4.0
  • 语言: 英语
  • 数据规模: 10K<n<100K
  • 任务类别:
    • 图像分类
    • 文本到图像
    • 图像到文本
  • 标签:
    • CogVLM2
    • CogVLM2-4bit
    • laion2b-en-a65
    • laion-pop
    • stable-diffusion-3-medium
  • 美观名称: laion2B-en aesthetics>=6.5 CogVLM2-4bit captions

数据集内容

  • 原始图像 (未包含): 635561 (64部分,每部分约10000张)
  • 过滤和去重后的图像 (未包含): 111486
  • 原始图像的图像描述: 13141 (仅部分00000-00004)
  • 从描述生成的图像: 8x 2752 = 22016 (仅部分00000)
  • 从合成图像生成的图像描述: 3x 2752 = 8256

任务

  • 评估CogVML2
  • 评估用于Stable Diffusion 3训练的提示
  • 评估Stable Diffusion 3的图像生成和提示内一致性
  • 评估Stable Diffusion 3的提示理解和一致性
  • 评估Stable Diffusion 3的参数化
  • 比较生成的描述与原始图像
  • 比较生成的描述与原始替代文本
  • 比较原始与合成图像的生成描述
  • 在带有合成描述的图像上训练模型

文件结构

00000...00004/ # CogVML2-4bit对laion2b-en-a65图像的描述 000000001.txt 000000002.txt ...

images_stable-diffusion-3-medium_q80/ # 生成的图像(质量=80%) cfg_30, cfg_45, cfg_60 # 使用的cfg值 bosh3, dpmpp_2m, euler # 使用的采样器 steps_15, steps_20, steps_28 # 使用的步长 000000001_0.webp # 批次编号0 ... 000000001_7.webp

captions2images.py # 将提示发送到ComfyUI以从描述生成图像 images2grid.py # 将生成的图像显示为2x2或3x3网格 images2reencode.py # 将生成的图像压缩为有损 workflow_api.json # ComfyUI的工作流程

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作