ImageGem

arXiv2025-10-21 更新2025-10-23 收录

下载链接：

https://maps-research.github.io/imagegem-iccv2025/

下载链接

链接失效反馈

官方服务：

资源简介：

ImageGem 数据集是一个大规模数据集，旨在研究生成模型对细粒度用户偏好的理解。该数据集由来自 57K 用户的真实世界交互数据组成，这些用户共同构建了 242K 个定制的 LoRA，编写了 3M 个文本提示，并创建了 5M 个生成图像。数据集还包括用户对生成图像的偏好注释，可用于训练更好的偏好对齐模型。此外，数据集还支持个性化图像检索和生成模型推荐等应用。

The ImageGem dataset is a large-scale dataset designed to investigate generative models' understanding of fine-grained user preferences. It comprises real-world interaction data from 57K users, who collectively created 242K custom LoRAs, authored 3M text prompts, and generated 5M images. The dataset also includes user preference annotations regarding the generated images, which can be used to train more effective preference alignment models. Additionally, the dataset supports applications such as personalized image retrieval and generative model recommendation.

提供机构：

纽约大学 (NYU) 和斯坦福大学 (Stanford)

创建时间：

2025-10-21

原始信息汇总

ImageGem数据集概述

数据集基本信息

名称: ImageGem数据集
发布会议: ICCV2025
数据规模:
- 图像数量: 4,916,134张
- 唯一提示词: 2,895,364个
- LoRA模型: 242,118个
- 用户数量: 57,000个不同用户
- 文本提示词: 3,000,000个
- 生成图像: 5,000,000张

数据集特点

包含真实世界的用户交互数据
提供细粒度的用户偏好标注
经过安全过滤器处理

应用场景

聚合级偏好对齐

从数据集中采样三个主题：汽车、狗、风景
与Pick-a-pic数据集进行比较
训练DiffusionDPO模型

检索和生成推荐

实现个性化图像检索
生成模型推荐
采用两阶段方法：
- 协同过滤（CF）检索top-k候选项目
- 视觉语言模型（VLM）进行精细排序

生成模型个性化

构建LoRA权重空间（使用PCA）
实验多种方法处理不同秩的LoRA权重：
- 使用PCA将LoRA标准化为rank1
- 仅选择前馈（FF）层
- 仅选择注意力值（attn v）层
SVD-based策略产生最稳健的变换

技术贡献

首次实现通过在潜在权重空间中编辑定制扩散模型来对齐个体用户偏好的生成模型个性化范式
构建LoRA权重到权重（W2W）空间

搜集汇总

数据集介绍

构建方式

在生成式人工智能快速发展的背景下，ImageGem数据集通过Civitai平台系统性地采集了真实用户与生成模型的交互数据。该数据集构建过程依托平台公开API，获取了57,000名用户创建的242,000个定制化LoRA模型、300万条文本提示词及500万张生成图像，建立了图像、模型与用户间的三元关系数据库。为确保数据可靠性，研究团队采用Detoxify多语言毒性文本分类器对提示词进行安全评估，排除了不安全概率超过0.2的图像内容，最终形成经过安全过滤的490万张高质量图像集合。

特点

ImageGem数据集最显著的特征在于其真实场景下的细粒度用户偏好标注，这为研究个性化生成模型提供了前所未有的数据基础。数据集不仅包含用户对生成图像的匿名表情反馈（如点赞、心形等），还完整记录了用户与定制化模型的交互历史，包括1,739,947张模型创建者为展示模型能力而生成的内部图像，以及3,176,187张反映用户偏好的历史记录图像。此外，数据集覆盖了37种不同的基础模型结构，其中SD 1.5占41%，Pony占31%，展现了模型类型的丰富多样性。

使用方法

该数据集支持多种前沿研究方向的应用实践。在聚合偏好对齐方面，研究人员可基于用户自然观察得到的隐式偏好对，通过DiffusionDPO等方法训练偏好对齐模型；在个性化检索与推荐任务中，可利用双塔模型、SASRec等架构进行图像和生成模型检索，并结合视觉语言模型生成结构化用户偏好描述以提升推荐可解释性；最具创新性的是生成模型个性化应用，通过在LoRA权重空间中构建潜在编辑方向，实现无需重新训练即可使预训练模型适应用户个性化偏好的目标。

背景与挑战

背景概述

ImageGem数据集由纽约大学与斯坦福大学研究团队于2025年联合发布，聚焦生成式模型个性化研究领域。该数据集采集自Civitai开放平台57万用户的实际交互数据，涵盖242万个定制化LoRA模型、300万条文本提示与500万张生成图像，首次构建了大规模细粒度用户偏好标注体系。其核心研究在于突破传统聚合偏好建模的局限，通过真实用户行为数据驱动生成模型对个体审美差异的感知与适应，为个性化图像生成奠定了数据基础。

当前挑战

该数据集致力于解决生成模型个性化领域的核心挑战：如何从模糊输入中推断个体视觉偏好，例如基于‘我理想中的哈姆雷特’生成符合用户独特想象的肖像。构建过程中面临双重挑战：在数据层面需处理用户生成内容的异构性，通过毒性检测与语义聚类确保数据安全性与质量；在技术层面需设计权重空间编辑方法，将高维LoRA参数映射为可解释的偏好方向，同时克服PCA降维对模型多样性的限制。

常用场景

经典使用场景

在生成式人工智能领域，ImageGem数据集为研究个性化图像生成提供了关键支撑。该数据集收录了57万用户与24.2万个定制化LoRA模型的真实交互记录，包含300万文本提示词与500万生成图像，为探索用户细粒度偏好提供了丰富素材。其典型应用场景包括通过用户历史交互数据训练偏好对齐模型，实现从群体偏好到个体偏好的建模转变，推动生成模型向更具人性化的方向发展。

解决学术问题

该数据集有效解决了生成式模型个性化研究中的核心难题。传统方法受限于大规模细粒度用户标注数据的缺失，难以捕捉个体审美差异。ImageGem通过真实用户与模型的交互记录，构建了从隐含反馈到显式偏好的映射机制，使研究者能够突破零样本方法的局限，系统研究用户相似性对生成效果的影响，为个性化生成理论提供了实证基础。

衍生相关工作

该数据集催生了多项突破性研究。基于其构建的权重空间编辑方法扩展了Weights2Weights框架的应用范围，使LoRA模型能沿语义方向连续调整。其提供的用户交互数据推动了检索模型与视觉语言模型的融合创新，如结合SASRec时序建模与VLM可解释排序的混合推荐系统。这些工作为生成式模型的个性化研究开辟了全新范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集