Alphabet Dataset: Synthetic Text-to-Image Dataset
收藏Alphabet Dataset 概述
数据集简介
- 合成文本到图像数据集,用于生成包含多个字母形状的图像
- 适用于测试文本条件扩散模型
主要特性
- 生成包含多个字母形状(A-Z)的图像
- 可自定义图像大小和形状数量
- 随机背景和形状颜色
- 精确的形状定位(带边界框)
- 内置可视化工具
- 基于Streamlit的交互式查看器
数据集格式
每个样本包含:
- x:RGB图像张量,形状为[3, H, W]
- y:参数张量,包含:
- 背景颜色(RGB)
- 每个形状的以下信息:
- 形状类型(字母A-Z的编码)
- 位置(x1, y1, x2, y2)
- 颜色(RGB)
快速使用
python from syntht2i import ShapeDataset
创建数据集
dataset = ShapeDataset( length=1000, # 图像数量 image_size=256, # 图像尺寸(正方形) max_shapes=3, # 每张图像最大形状数 seed=42, # 随机种子 nocolor=True # 白色背景 )
获取单个样本
image, params = dataset[0]
可视化样本
dataset.visualize_sample(0)
2025竞赛专用配置
python valset = ShapeDataset( length=100, image_size=64, max_shapes=3, seed=0, nocolor=True, granularity=8, download_url="https://github.com/fal-ai-community/alphabet-dataset/raw/refs/heads/main/contest_param/2025contest_validationsetparams.pt" )
trainset = ShapeDataset( length=100000, image_size=64, max_shapes=3, seed=42, nocolor=True, granularity=8, download_url="https://github.com/fal-ai-community/alphabet-dataset/raw/refs/heads/main/contest_param/2025contest_trainsetparams.pt" )
许可证
- MIT许可证




