GEMRec-18K
收藏github2023-12-08 更新2024-05-31 收录
下载链接:
https://github.com/MAPS-research/GEMRec
下载链接
链接失效反馈官方服务:
资源简介:
GEMRec-18K是一个包含18,000张图像的提示-模型交互数据集,这些图像由200个公开可用的生成模型生成,每个模型都与90个多样化的文本提示配对。数据集中的模型是从Civitai上根据流行度分布随机抽样的197个模型和3个原始的Stable Diffusion检查点组成。文本提示来自三个来源,并被分类为12个类别。
GEMRec-18K is a dataset comprising 18,000 images of prompt-model interactions, generated by 200 publicly available generative models, each paired with 90 diverse text prompts. The models in the dataset consist of 197 models randomly sampled based on popularity distribution from Civitai and 3 original Stable Diffusion checkpoints. The text prompts are sourced from three origins and categorized into 12 classes.
创建时间:
2023-06-25
原始信息汇总
数据集概述
数据集名称
GEMRec-18K
数据集描述
GEMRec-18K 是一个包含18,000张图像的提示-模型交互数据集,这些图像由200个公开可用的生成模型生成,每个模型都与90个多样化的文本提示配对。这些模型是从Civitai网站上根据流行度(下载次数)随机抽样的197个模型,以及来自HuggingFace的3个原始Stable Diffusion检查点(v1.4, v1.5, v2.1)。所有模型检查点已转换为Diffusers格式。文本提示来自三个来源:60个来自Parti Prompts,10个来自Civitai的流行提示,以及20个手工制作的提示,其中10个遵循DreamStudio的提示指南,另外10个是简化和缩短的版本,遵循Midjourney的提示。文本提示被分类为12个类别。
数据集链接
- 完整数据集(图像及元数据): GEMRec-Promptbook
- 修剪版数据集(仅元数据): GEMRec-Metadata
- 200个模型检查点的元数据: GEMRec-Roster
数据集生成
数据集的生成涉及下载模型、生成图像以及计算和上传评估指标。主要脚本包括get_models.py用于从Civitai获取模型元数据,download_and_generate.py用于下载模型和生成图像,以及evaluate_and_upload.py用于评估和上传图像。
数据集使用
用户可以通过执行download_and_generate.py脚本来复制GEMRec-18K数据集,或者通过一系列步骤从Civitai抽样模型并生成自己的数据集。
数据集结构
关键文件和目录
everything/get_models.py: 用于获取模型元数据。download_and_generate.py: 用于下载模型和生成图像。evaluate_and_upload.py: 用于计算图像的评估指标并上传。roster.csv: 包含200个模型检查点的元数据。promptsets/: 包含用于图像生成的提示。utils/: 包含生成GEMRec-18K数据集的辅助脚本。
由脚本创建的目录
meta/: 存储检查点的元数据。output/: 存储转换后的Diffusers格式模型。download/: 存储从Civitai下载的检查点缓存。generated/train/: 存储使用特定提示集生成的图像。
搜集汇总
数据集介绍

构建方式
GEMRec-18K数据集的构建过程体现了对生成模型与提示词交互的深入探索。该数据集包含了18,000张图像,这些图像由200个公开可用的生成模型生成,并与90个多样化的文本提示词配对。模型的选择基于Civitai平台上模型的流行度分布,从中随机抽取了197个模型,并加入了3个来自HuggingFace的原始Stable Diffusion检查点。所有模型均转换为Diffusers格式。提示词则来源于Parti Prompts、Civitai以及手工设计的提示词,涵盖了12个类别,确保了数据集的多样性和广泛性。
使用方法
使用GEMRec-18K数据集,研究人员可以通过克隆GitHub仓库并运行提供的脚本来复现数据集。数据集的使用不仅限于复现,用户还可以根据自身需求构建自定义数据集。通过提供的脚本,用户可以下载模型、生成图像,并评估生成结果。此外,数据集还支持从Civitai平台获取最新模型,并生成图像,为研究人员提供了灵活的工具来探索生成模型的潜力。
背景与挑战
背景概述
GEMRec-18K数据集由MAPS研究团队于2023年创建,旨在解决生成模型推荐系统中的核心问题。该数据集包含18,000张图像,由200个公开可用的生成模型与90个多样化的文本提示配对生成。这些模型主要基于Stable Diffusion进行微调,并涵盖了从Civitai平台根据流行度分布随机抽取的197个模型,以及来自HuggingFace的3个原始Stable Diffusion检查点。文本提示则来源于Parti Prompts、Civitai和DreamStudio等多样化的来源,并被分类为12个主题类别。GEMRec-18K的发布为生成模型推荐领域提供了重要的数据支持,推动了相关研究的深入发展。
当前挑战
GEMRec-18K数据集在构建过程中面临多重挑战。首先,生成模型推荐系统的核心问题在于如何从海量模型中高效筛选出适合特定任务的模型,这需要综合考虑模型的生成质量、多样性和用户需求。其次,数据集的构建涉及大规模模型的下载、转换与图像生成,技术复杂度高且耗时较长。此外,文本提示的设计需要兼顾多样性与代表性,以确保生成图像的广泛适用性。最后,数据集的评估与上传过程也需解决计算资源与存储空间的限制问题。这些挑战共同构成了GEMRec-18K数据集构建与应用中的关键难点。
常用场景
经典使用场景
GEMRec-18K数据集在生成模型推荐领域具有广泛的应用。该数据集通过18,000张由200个公开可用的生成模型生成的图像,结合90个多样化的文本提示,为研究人员提供了一个丰富的实验平台。经典的使用场景包括生成模型的性能评估、模型推荐系统的开发以及文本到图像生成任务的研究。通过该数据集,研究人员可以深入分析不同生成模型在不同提示下的表现,从而为模型选择和优化提供科学依据。
解决学术问题
GEMRec-18K数据集解决了生成模型推荐中的多个关键学术问题。首先,它通过大规模的数据集和多样化的提示,帮助研究人员评估生成模型在不同上下文中的表现,解决了模型性能评估的难题。其次,该数据集为模型推荐系统的开发提供了基础数据,使得研究人员能够基于实际生成结果进行模型推荐,而非仅仅依赖理论假设。此外,该数据集还为文本到图像生成任务的研究提供了丰富的实验数据,推动了生成模型在实际应用中的发展。
实际应用
GEMRec-18K数据集在实际应用中具有广泛的价值。例如,在创意设计领域,设计师可以通过该数据集快速筛选出适合特定任务的生成模型,从而提高工作效率。在教育和研究领域,该数据集为教学和实验提供了丰富的素材,帮助学生和研究人员更好地理解生成模型的工作原理。此外,该数据集还可用于开发智能推荐系统,帮助用户在海量生成模型中找到最适合其需求的模型,提升用户体验。
数据集最近研究
最新研究方向
在生成模型推荐领域,GEMRec-18K数据集的发布标志着生成模型与提示词交互研究的新里程碑。该数据集通过整合200个公开可用的生成模型与90个多样化的文本提示,生成了18K张图像,为研究生成模型的性能评估和推荐系统提供了丰富的实验数据。当前研究热点聚焦于如何利用此类数据集优化生成模型的推荐算法,特别是在多模态生成任务中,如何通过提示词与模型的交互提升生成质量。此外,该数据集的应用还推动了生成模型在艺术创作、广告设计等领域的实际应用,进一步拓展了生成式人工智能的边界。
以上内容由遇见数据集搜集并总结生成



