learn-user-pref

Hugging Face2025-08-16 更新2025-08-17 收录

下载链接：

https://huggingface.co/datasets/wenyii/learn-user-pref

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用户对个性化图像预测的偏好数据，用于支持用户偏好建模和个性化图像生成的研究。每个.pkl文件记录了用户的ID、历史偏好图像、相关提示以及用户对两个候选图像的偏好。

创建时间：

2025-08-08

原始信息汇总

数据集概述：Learning User Preferences for Image Generation Models

基本信息

许可证: MIT
相关链接:
- 项目网站: https://learn-user-pref.github.io/
- 论文: https://arxiv.org/abs/2508.08220
- GitHub仓库: https://github.com/Mowenyii/learn-user-pref

数据集内容

数据格式: 多个.pkl文件，包含用户偏好数据
用途: 支持用户偏好建模和个性化图像生成的研究

文件格式说明

每个.pkl文件包含以下字段的记录:

user_id: 用户ID，与Pick-a-Pic数据集一致
reference_list: 用户喜欢的历史图像列表
reference_list_bad: 用户不喜欢的历史图像列表
reference_prompt_list: 历史图像对应的提示词
image0: 目标提示词生成的候选图像1
image1: 目标提示词生成的候选图像2
prompt: 目标提示词文本描述
label0: 用户偏好标签(1表示偏好image0，0表示偏好image1)

任务描述

给定:

目标提示词及其两个候选图像
用户的历史偏好数据

目标: 预测用户更偏好哪个候选图像

使用说明

训练集需要合并多个分割文件
合并方法: 使用merge.py中的merge_pickle_files函数

引用

bibtex @article{mo2025learning, title={Learning User Preferences for Image Generation Model}, author={Mo, Wenyi and Ba, Ying and Zhang, Tianyu and Bai, Yalong and Li, Biye}, journal={arXiv preprint arXiv:2508.08220}, year={2025} }

搜集汇总

数据集介绍

构建方式

在个性化图像生成研究领域，learn-user-pref数据集通过系统化收集用户偏好数据构建而成。该数据集基于Pick-a-Pic数据集中的用户标识，采用二进制标注策略记录用户对生成图像的选择倾向。数据以分片形式存储，每个.pkl文件包含用户历史偏好记录、候选图像对及其对应提示词，并通过Python脚本实现分片数据的合并处理。

特点

该数据集的核心价值体现在其多维度的用户偏好表征能力。每个数据样本不仅包含目标提示词生成的两幅候选图像，还整合了用户历史喜欢与不喜欢的图像及其对应提示词。这种结构设计使得研究者能够从用户长期偏好和即时选择两个层面，深入分析个性化图像生成的决策机制。独特的二进制标注体系进一步量化了用户对图像风格的细微偏好差异。

使用方法

使用该数据集时需通过提供的merge.py脚本合并训练分片文件。典型应用场景包括：基于用户历史偏好数据，预测其对目标提示词生成图像的选择倾向。研究者可结合reference_list和reference_list_bad构建用户偏好模型，通过分析image0与image1的视觉特征与label0的关联性，开发个性化图像生成算法。具体实现细节可参考项目GitHub仓库提供的技术文档。

背景与挑战

背景概述

随着生成式人工智能技术的迅猛发展，个性化图像生成已成为计算机视觉领域的前沿研究方向。learn-user-pref数据集由Mo Wenyi等研究人员于2025年构建，旨在解决用户偏好建模这一核心科学问题。该数据集基于Pick-a-Pic数据集扩展而来，通过系统采集用户对生成图像的历史偏好数据，为研究个性化图像生成算法提供了重要基准。作为首个公开的大规模用户偏好数据集，其创新性地引入了正负样本对比机制，显著推动了可控图像生成领域的发展，被广泛应用于个性化推荐系统的算法优化。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，用户偏好具有高度主观性和时变性，传统静态建模方法难以准确捕捉其复杂特征；图像生成质量与用户期待之间的语义鸿沟，也增加了偏好预测的难度。在构建过程层面，数据采集需平衡用户隐私保护与数据效用，标注过程涉及复杂的人类主观判断标准化；多源异构数据的清洗与融合对数据一致性提出严峻考验，而大规模偏好数据的动态更新机制仍需完善。

常用场景

经典使用场景

在个性化图像生成领域，learn-user-pref数据集为研究者提供了丰富的用户偏好数据，支持模型训练与评估。该数据集通过记录用户对不同生成图像的喜好，为构建个性化推荐系统奠定了数据基础。经典使用场景包括训练生成对抗网络（GANs）或扩散模型，使其能够根据用户历史偏好生成更符合个人审美的图像。

实际应用

在实际应用中，learn-user-pref数据集可赋能电商平台的个性化广告生成，根据用户偏好动态优化展示内容。同时，社交媒体平台可利用该数据集训练推荐算法，为用户定制更符合其审美的图像内容。此类应用显著提升了用户体验，同时为商业场景的精准营销提供了技术支持。

衍生相关工作

基于该数据集衍生的经典工作包括个性化图像生成框架的优化研究，例如结合元学习技术的用户偏好快速适应模型。部分研究进一步探索了跨域偏好迁移，将图像生成偏好扩展至视频或3D内容领域。这些工作显著拓展了个性化生成模型的适用范围，形成了学术界与工业界的良性互动。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集