PAMELA

Hugging Face2026-04-14 更新2026-04-15 收录

下载链接：

https://huggingface.co/datasets/bethgelab/PAMELA

下载链接

链接失效反馈

官方服务：

资源简介：

PAM∃LA 是一个包含人类参与者对 AI 生成图像进行美学质量评分的数据集。每项评分均配有丰富的参与者人口统计信息和图像元数据，支持个性化美学预测、视觉偏好中的 demographic biases 以及生成内容的美学建模研究。数据集包含 69,904 条评分，分为训练集、验证集和测试集，其中验证集和测试集进一步分为包含已知用户对新图像的评分和全新用户的评分。图像内容涵盖 5,077 张独特图像，分为 21 个视觉组和 26 种艺术历史风格。参与者包括 199 位不同年龄、性别和国籍的个体。数据集结构包括图像路径、ID、参与者ID、图像元数据（如组别、风格、类别、提示和类型）、用户人口统计信息（如年龄、性别、国籍）以及质量标签和原始评分。注意事项指出参与者群体不具有全球人口统计代表性，且某些 demographic 子群体样本量较小，需谨慎解释。

创建时间：

2026-04-08

原始信息汇总

PAM∃LA 数据集概述

数据集基本信息

名称：PAM∃LA
简介：一个包含人类参与者对AI生成图像进行美学质量评级的数据库。每个评级都附有丰富的参与者人口统计信息和图像元数据，旨在支持个性化美学预测、视觉偏好中的人口统计偏差以及生成内容的美学建模研究。
许可证：CC BY 4.0
主要任务类别：文本到图像
语言：英语
标签：美学、RLHF、个性化、人类偏好

数据集规模与划分

总评级数：69,904
划分详情：
- pamela_train：50,222个评级，训练集。
- pamela_val_unseen：926个评级，验证集——参与者未在训练集中出现过。
- pamela_val_seen：6,551个评级，验证集——参与者出现过，但图像未出现过。
- pamela_test_unseen：2,470个评级，测试集——参与者未在训练集中出现过。
- pamela_test_seen：9,735个评级，测试集——参与者出现过，但图像未出现过。
划分说明：以_seen结尾的划分用于评估模型在已知参与者评价新图像上的性能。以_unseen结尾的划分用于评估模型对全新参与者的泛化能力，这是个性化研究中更困难、更现实的设置。

图像内容

唯一图像数量：5,077
视觉组别：21个，包括抽象、动物、建筑、汽车、电影感、城市景观、时尚、花卉绘画、食物、风景（艺术与摄影写实）、生活方式、肖像（艺术与摄影写实）、产品、场景、特殊、体育、静物、街景、旅行。
艺术风格：26种艺术史风格应用于艺术子集（例如印象派、综合立体主义、新艺术现代主义、浪漫主义、巴洛克、立体主义等）。摄影写实类图像无风格标签（null）。
图像类型：两种，Art（26,237个评级）和Photorealism（43,667个评级）。

参与者信息

唯一参与者数量：199
年龄范围：19–60岁
性别分布：男性（40,525个评级），女性（29,086个评级），不愿透露（293个评级）
国籍：代表23个国家

数据结构

每个条目为JSON格式，包含以下字段：

image_path：图像PNG文件的相对路径（位于images/目录下）。
image_id：唯一的数字图像ID。
participant_id：匿名用户ID（格式为p_*）。
image_metadata：包含group（视觉主题类别）、style（艺术风格标签）、category（固定为"AI image"）、prompt（描述图像的文本提示）、type（"Art"或"Photorealism"）的子对象。
user_demographics：包含age（年龄）、age_binned（年龄分段，如"twenties"）、gender（性别）、nationality（国籍）的子对象。
quality_label：质量标签，取值为poor、fair、good、great、excellent之一。
original_score：连续的美学评分，范围1.0–5.0。

重要说明

参与者群体（199名用户，23个国籍）并非全球人口在人口统计学上的代表性样本。汇总的评分不应被视为普遍的美学判断。
由人口统计组合定义的子组（例如，来自特定国家的50岁以上女性）可能样本量非常小。在未检查样本量的情况下，应避免对狭窄的亚群体做出断言。

搜集汇总

数据集介绍

构建方式

在个性化文本到图像生成的研究领域，PAMELA数据集通过系统化的方法构建而成。研究团队首先利用AI模型生成了涵盖21个视觉主题组别的五千余张独特图像，这些图像被划分为艺术与超写实两种类型，其中艺术类图像还融合了26种不同的艺术史风格。随后，来自23个国家的199名参与者对图像进行了美学质量评估，每位参与者均提供了包括年龄、性别和国籍在内的人口统计学信息。数据收集过程共获得了近七万条评分记录，并依据参与者是否在训练集中出现，精心划分了训练集与验证集、测试集，以支持个性化美学预测模型的开发与评估。

使用方法

该数据集主要服务于个性化美学预测与生成模型对齐的研究。使用者可通过加载提供的JSON格式标注文件，获取图像路径、评分及对应的用户与图像元数据。在模型训练阶段，可利用训练集学习融合图像特征与用户特征的审美评分预测函数。评估时，应分别使用‘已见用户’和‘未见用户’划分来检验模型的个性化能力与泛化性能。研究者可进一步分析不同人口统计学群体间的审美差异，或探索提示词、艺术风格等因素对评分的影响。需要注意的是，鉴于数据集的样本局限性，结论应避免过度推广至特定狭窄子群体。

背景与挑战

背景概述

随着生成式人工智能的飞速发展，文本到图像生成模型已能产生高度逼真的视觉内容，然而生成结果的美学质量评估长期依赖于聚合的人类评分，缺乏对个体审美偏好的深入理解。为应对这一局限，PAM∃LA数据集应运而生，由蒂宾根人工智能中心与鲁汶大学脑与认知系的研究团队于2024年共同创建。该数据集核心聚焦于个性化审美预测，通过收集来自199位参与者对5,077幅AI生成图像的69,904条评分，并辅以丰富的用户人口统计学信息与图像元数据，旨在探索审美偏好的个体差异与群体偏差，推动生成内容的美学建模向个性化方向演进，为基于人类反馈的强化学习与视觉艺术计算研究提供了关键数据基础。

当前挑战

PAM∃LA数据集致力于解决个性化文本到图像生成中的审美偏好预测问题，其核心挑战在于建模高度主观且多样的人类美学判断。具体而言，该领域需克服审美标准的个体与文化异质性，实现对新用户审美倾向的准确泛化，并避免模型在有限人口样本上产生偏见。在数据集构建层面，挑战主要体现为如何设计平衡的评估框架以区分已知用户对新图像的评分能力与模型对全新用户的泛化性能，同时确保在有限的参与者规模下（199人，涵盖23种国籍）覆盖足够多样的审美视角与人口统计组合，以避免对狭窄子群体做出缺乏统计支撑的推断。

常用场景

经典使用场景

在个性化美学评估领域，PAMELA数据集为研究者提供了一个独特的实验平台，其核心应用场景在于训练和验证能够预测个体视觉偏好的计算模型。该数据集通过整合人类参与者对AI生成图像的审美评分，并关联丰富的用户人口统计信息与图像元数据，使得模型能够学习不同人群对艺术风格、视觉主题的差异化偏好。经典使用方式涉及构建个性化推荐系统，模型依据用户的历史评分和人口特征，预测其对未见图像的审美评价，从而探索美学主观性的量化表征。

解决学术问题

PAMELA数据集致力于解决生成式人工智能中一个关键挑战：如何将文本到图像生成的结果与个体用户的审美品味对齐。它通过大规模的人类偏好标注，为研究视觉美学的个体差异、文化背景对审美判断的影响以及人口统计学偏差提供了实证基础。该数据集的意义在于推动了从通用美学模型向个性化美学模型的范式转变，使得生成内容能够更好地适应多元化的用户需求，提升了AI生成艺术的人文相关性与包容性。

实际应用

在实际应用层面，PAMELA数据集为开发个性化内容生成与推荐系统提供了直接支持。例如，在数字艺术平台、广告设计或社交媒体内容流中，系统可以借鉴该数据集训练的模型，根据用户的年龄、性别和文化背景动态调整生成图像的风格或主题，以提升用户 engagement 和满意度。此外，它也有助于识别和缓解生成模型输出中可能存在的系统性审美偏见，促进更加公平和多样化的视觉内容生产。

数据集最近研究