five

OJ-1/PAMELA

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/OJ-1/PAMELA
下载链接
链接失效反馈
官方服务:
资源简介:
PAM∃LA是一个关于AI生成图像的数据集,由人类参与者根据美学质量进行评分。该数据集将每个评分与丰富的参与者人口统计信息和图像元数据配对,支持个性化美学预测、视觉偏好中的 demographic biases 以及生成内容的美学建模研究。数据集包含50,222个训练集评分,926个未见用户的验证集评分,6,551个已知用户对新图像的验证集评分,2,470个未见用户的测试集评分,以及9,735个已知用户对新图像的测试集评分,总计69,904个评分。图像内容涵盖5,077张独特图像,分为21个视觉组和26种艺术历史风格。参与者包括199位独特个体,年龄在19至60岁之间,性别分布为男性40,525次,女性29,086次,不愿透露293次,代表23个国家。数据集结构包括图像路径、图像ID、参与者ID、图像元数据(如视觉类别、艺术风格、提示文本、图像类型)、用户人口统计信息(如年龄、性别、国籍)以及质量标签和原始评分。

PAM∃LA is a dataset of AI-generated images rated by human participants for aesthetic quality. It pairs each rating with rich participant demographics and image metadata, enabling research on personalized aesthetic prediction, demographic biases in visual preference, and aesthetic modeling for generative content. The dataset includes 50,222 training set ratings, 926 validation set ratings for unseen users, 6,551 validation set ratings for seen users with unseen images, 2,470 test set ratings for unseen users, and 9,735 test set ratings for seen users with unseen images, totaling 69,904 ratings. The image content consists of 5,077 unique images across 21 visual groups and 26 art-historical styles. Participants include 199 unique individuals aged 19–60, with gender distribution of 40,525 male, 29,086 female, and 293 prefer not to say, representing 23 nationalities. The dataset structure includes image paths, image IDs, participant IDs, image metadata (e.g., visual category, art style, prompt text, image type), user demographics (e.g., age, gender, nationality), and quality labels with original scores.
提供机构:
OJ-1
搜集汇总
数据集介绍
main_image_url
构建方式
PAMELA数据集由来自德国图宾根大学与比利时鲁汶大学的研究团队构建,旨在探究文本到图像生成模型在个性化审美偏好预测中的表现。该数据集的构建过程涉及招募199名年龄范围在19至60岁、涵盖23个国籍的参与者,对5077幅由人工智能生成的图像进行审美质量评分。图像内容覆盖21个视觉类别,包括抽象、动物、建筑等,并赋予其中一部分以26种艺术史风格标签。每位参与者对每幅图像给出从“差”到“优秀”五个等级的定性评价,同时记录连续的数值评分。此外,数据集还收集了参与者的年龄、性别、国籍等人口统计学信息,以及图像的元数据如生成提示词、风格和类型,形成一个多维度的审美评估体系。
特点
PAMELA数据集的核心特点在于其精细化的数据结构和专门针对个性化审美预测的设计。数据集包含共计69,904条评分记录,划分为训练集、验证集和测试集,其中验证与测试集进一步区分为“已知用户”和“未见用户”子集,以评估模型在面对全新用户时的泛化能力。每个数据条目不仅包含图像路径与参与者标识,还囊括了详尽的图像元数据(如视觉组别、艺术风格、生成提示)和用户人口统计信息(如年龄分段、性别、国籍),使得研究者能够深入分析人口统计学因素对美学期望的影响。这一设计使得PAMELA成为探索视觉偏好个性化与美学建模的理想基准。
使用方法
PAMELA数据集主要用于训练和评估个性化审美预测模型。研究者可通过加载提供的JSON标注文件,将图像路径与对应的评分及元数据关联起来。数据集支持两种主要评估场景:通过“seen”子集考察模型对已知用户新图像的预测能力,以及通过“unseen”子集测试模型对全新用户的泛化性能,后者更贴近现实应用。在使用时,数据发布者特别提醒,参与群体并非全球人口的代表性样本,因此汇总分数不应被视为普适的审美判断。同时,基于小样本子人群体的推断因可能样本量不足需谨慎对待。建议结合代码仓库中的预测器实现进行模型开发与基准测试。
背景与挑战
背景概述
在文本到图像生成技术迅猛发展的背景下,如何使生成内容契合个体用户的审美偏好成为核心研究命题。PAMELA数据集由蒂宾根大学AI中心与鲁汶大学脑与认知系的联合团队于2025年创建,旨在系统性地探索个性化审美预测问题。该数据集包含近七万条由199名来自23个国家的参与者对5077张AI生成图像的审美评分,并完整收录了用户人口统计学信息与图像元数据。通过设置已知用户与未见用户的多层次验证拆分,PAMELA为研究审美偏好的个体差异及人口统计偏见提供了标准化基准,对推动生成式AI从通用美学模型向个性化适配进化具有重要价值。
当前挑战
该数据集所解决的领域核心挑战在于,现有文本到图像生成系统缺乏对个体审美差异的建模能力,导致生成结果无法满足用户主观偏好。具体挑战包括:首先,审美偏好具有高度主观性与文化依赖性,如何从有限样本中捕捉用户个性特征并实现跨用户泛化是技术难点;其次,数据集构建过程中面临参与者代表性不足的困难,199名参与者虽涵盖23国国籍,但远非全球人口的统计代表,这要求研究者在分析特定子群体时必须谨慎验证样本量;此外,图像生成风格覆盖21个视觉类别与26种艺术史风格,如何在多元刺激下保持评分一致性与可比性也是方法论挑战。
常用场景
经典使用场景
在文本到图像生成技术蓬勃发展的当下,如何使生成结果贴合个体独特的审美偏好,成为该领域亟待突破的瓶颈。PAMELA数据集应运而生,其最经典的使用场景在于为个性化美学预测模型提供训练与评估的基准。研究者能够基于该数据集中近七万条由199位参与者对五千余幅AI生成图像的美学评分,结合丰富的用户人口统计学信息与图像元数据,构建能够精准捕捉用户个人品味的预测模型。该数据集的精妙之处还在于其精心设计的数据拆分方式,其中针对未曾见过的新用户的评估子集,为衡量模型在真实场景下的泛化能力提供了严苛的测试环境。
解决学术问题
PAMELA数据集系统性地解决了当前生成式人工智能领域中一个关键且被长期忽视的学术问题,即如何量化与预测人类美学偏好的个体差异性。传统的美学评估研究往往依赖于群体平均打分,忽略了审美判断中深植于个人背景、文化归属与认知风格的巨大差异。该数据集通过记录每位评价者的年龄、性别、国籍等人口统计学特征,并与图像的艺术风格与视觉主题等信息严格对齐,首次使得研究者能够探究审美偏好中的群体分化规律。这不仅推动了从集体审美的笼统认知向个体化理解的范式转变,也为构建更具包容性与公平性的生成模型奠定了数据基础,对于理解人机交互中主观评价的多样性具有深远意义。
衍生相关工作
PAMELA数据集的发布,催生了一系列具有里程碑意义的衍生研究工作。基于其提供的详尽评分与人口统计学信息,研究者构建了多种用于个性化美学预测的基线模型,例如融合用户身份嵌入的深度回归网络以及基于元学习的新用户适配算法。该数据集还激发了对审美偏好中的群体间和群体内差异的量化分析,相关工作揭示了国籍、年龄与性别在评价不同艺术风格图像时所展现出的显著模式。更重要的是,PAMELA为探索AI生成内容的美学质量与人类主观感受之间错综复杂的关联提供了标准化的数据支撑,推动了诸如美学感知的维度建模、提示工程对生成结果审美影响的因果分析等前沿研究的开展,从而在生成式AI与计算美学的交叉领域开辟了新的话语空间。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作