OpenAvatars-12k
收藏Hugging Face2025-11-03 更新2025-11-04 收录
下载链接:
https://huggingface.co/datasets/hamzah0asadullah/OpenAvatars-12k
下载链接
链接失效反馈官方服务:
资源简介:
OpenAvatars-12k数据集包含6000张带字幕和6000张不带字幕的合成图像。所有图像都是使用SD-V1.5 finetune模型生成的,并采用了推荐的超参数。图像尺寸为512x512像素,并遵循MIT许可发布。该数据集支持文本到图像和图像分类任务。图像具有多样的性别、肤色、配饰、面部细节、颜色、发型等属性,并提供了相应的配置文件来描述这些属性的可能组合。
创建时间:
2025-11-02
原始信息汇总
OpenAvatars-12k 数据集概述
基本信息
- 许可证: MIT
- 任务类别: 文本到图像、图像分类
- 语言: 英语
- 标签: 合成
- 规模: 1K<n<10K
数据集内容
- 图像总数: 12,000张
- 带标注图像: 6,000张
- 无标注图像: 6,000张
- 图像尺寸: 512x512像素
- 生成方式: 使用适当许可的SD-V1.5微调模型合成生成
数据生成配置
使用以下属性组合生成图像:
- 性别: 男性、女性
- 肤色: 白皙、深色
- 配饰: 眼镜、颈链、围巾、耳机、领带
- 面部细节: 雀斑、腮红、面部彩绘、微笑、撅嘴
- 颜色: 黑色、白色、灰色、红色、橙色、黄色、绿色、蓝色、紫色、棕色、金色、银色
- 男性发型: 寸头、平头、底层剪裁、背头、卷曲渐变、刺猬头、碗状发型、男士发髻、脏辫、爆炸头
- 女性发型: 精灵短发、波波头、狼剪、分层发型、直长发、波浪长发、卷曲长发、马尾辫、编发、发髻
数据集结构
- /
- /README.md
- /data/
- captions.json
- uncaptioned-images.zip
- captioned-images.zip
文件说明
- captions.json: 包含6,000个带标注图像的元数据
- uncaptioned-images.zip: 6,000张无标注图像
- captioned-images.zip: 6,000张带标注图像(可与captions.json配合使用)
更新日志
- 03/11/2025: 上传带标注图像文件(captioned-images.zip)和标注文件(captions.json)
- 02/11/2025: 创建仓库,上传无标注图像文件(uncaptioned-images.zip)和README文档
搜集汇总
数据集介绍

构建方式
在计算机视觉与生成式人工智能领域,数据集的构建方式直接影响其科学价值与应用潜力。OpenAvatars-12k数据集通过精心设计的配置参数,采用基于SD-V1.5模型的合成生成技术,系统化地创造了12,000种独特的人物头像组合。生成过程中严格遵循去重原则,确保每幅图像均具备唯一性,所有图像均以512×512像素的标准分辨率呈现,并依托MIT许可证实现开放共享。
特点
该数据集在合成图像数据领域展现出鲜明的结构化特征,其核心优势在于通过性别、肤色、发型、配饰等多维属性的排列组合,构建出高度可控的图像生成体系。数据集包含6,000幅带标注图像与6,000幅无标注图像的双重结构,既满足监督学习需求,又支持无监督任务。所有图像均采用纯色背景设计,有效排除背景干扰,为模型训练提供精准的视觉特征。
使用方法
针对实际研究场景,建议通过克隆代码库直接访问数据集资源。数据集采用分卷压缩存储方案,其中标注图像需结合captions.json元数据文件进行解析,该文件以键值对形式完整记录每幅图像的生成参数。研究人员可通过标准化数据接口快速载入图像与对应属性标注,实现生成模型训练、图像分类研究等多维度实验应用。
背景与挑战
背景概述
在生成式人工智能迅猛发展的时代背景下,文本到图像合成技术成为计算机视觉领域的前沿研究方向。OpenAvatars-12k数据集于2025年由研究人员hamzah0asadullah创建,其核心目标是通过合成数据推动虚拟形象生成技术的标准化进程。该数据集包含6000张带标注与6000张无标注图像,采用稳定扩散模型V1.5版本生成,所有图像均遵循512×512像素规范与MIT开源协议。通过系统化配置性别、肤色、配饰等12类特征参数,构建了约1.2万种特征组合,为数字身份表征研究提供了结构化数据支撑。
当前挑战
虚拟形象生成领域长期面临特征组合爆炸与生成一致性的双重挑战。OpenAvatars-12k在构建过程中需克服特征参数随机组合导致的内容重复问题,研发团队通过多重去重机制确保图像独特性。技术实现层面需平衡生成效率与特征覆盖度,在保持肤色、发型等12类属性均衡分布的同时,确保生成图像符合真实人体特征分布规律。数据标注环节则需维持结构化元数据与视觉内容的精确对应,这对后续模型的细粒度特征学习构成持续性考验。
常用场景
经典使用场景
在计算机视觉与生成式人工智能领域,OpenAvatars-12k数据集主要应用于文本到图像生成模型的训练与评估。该数据集通过系统化的参数组合生成多样化虚拟人物头像,为研究生成模型在人物肖像合成中的表现提供了标准化的测试平台。其精心设计的属性配置方案使得研究者能够定量分析不同特征组合对生成质量的影响,特别是在人物外貌特征的组合生成方面展现出独特价值。
解决学术问题
该数据集有效解决了生成式人工智能研究中高质量标注数据稀缺的难题,为文本到图像对齐研究提供了精确的标注基准。通过控制性别、肤色、发型等关键属性的系统组合,研究者能够深入探究生成模型在多样性表征与公平性方面的表现。其结构化标注体系为评估模型在人物特征生成中的偏差问题提供了量化依据,推动了生成模型可解释性研究的发展。
衍生相关工作
基于该数据集的特性,相关研究主要聚焦于生成模型的公平性评估与多样性增强。已有工作利用其结构化标注开发了人物特征生成的质量评估指标,推动了可控生成技术的发展。同时,该数据集启发了对生成模型偏见检测方法的研究,促进了合成数据在计算机视觉任务中的应用探索。其精心设计的属性组合方案也为后续人物图像数据集的构建提供了重要参考。
以上内容由遇见数据集搜集并总结生成



