PersonaX

Name: PersonaX
Creator: Zayed大学人工智能学院，卡内基梅隆大学，加利福尼亚大学圣地亚哥分校，澳大利亚国立大学
Published: 2025-09-15 01:30:03
License: 暂无描述

arXiv2025-09-15 更新2025-11-21 收录

下载链接：

https://hf-mirror.com/Persona-X/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

PersonaX是一个多模态数据集集合，旨在全面分析公共特征。它由两部分组成：CelebPersona，包含来自CelebA数据集的9444位公众人物，以及AthlePersona，覆盖7个主要体育联盟的4181名职业运动员。每个数据集都包括由三个高性能大型语言模型推断的行为特征评估，以及面部图像和结构化的传记信息。PersonaX提供了一个研究LLM推断行为特征与视觉和传记属性相结合的独特基础，促进了多模态特征分析和因果推理的新途径。

提供机构：

Zayed大学人工智能学院，卡内基梅隆大学，加利福尼亚大学圣地亚哥分校，澳大利亚国立大学

创建时间：

2025-09-15

搜集汇总

数据集介绍

构建方式

PersonaX数据集的构建采用多模态融合策略，通过整合公开人物的面部图像、结构化传记信息与基于大语言模型推断的行为特质数据。具体而言，CelebPersona子集以CelebA数据集为基础，通过链接Wikidata实体补充传记细节，并筛选10项稳定的面部属性；AthlePersona子集则从七大体育联盟官方网站收集运动员数据，包括面部图像和生理特征。两个子集均利用三种高性能大语言模型生成行为特质描述与五大性格特质分数，确保数据来源合法且符合隐私保护原则。

使用方法

该数据集支持多层次分析框架：在结构化层面，可应用独立性检验探究行为特质与其他模态的统计依赖关系；在非结构化层面，通过因果表征学习框架从图像与文本中提取潜在变量并构建因果图。研究人员可基于嵌入向量进行跨模态关联分析，或利用提供的因果模型研究特质形成的机制。数据使用需遵循非商业许可，禁止应用于高风险决策场景，确保符合伦理准则。

背景与挑战

背景概述

PersonaX数据集于2025年由穆罕默德·本·扎耶德人工智能大学、卡内基梅隆大学等机构联合发布，聚焦于人类行为特质的跨模态分析。该数据集通过整合大型语言模型推断的行为特征、面部图像与结构化传记信息，旨在解决传统心理学研究中依赖自我报告数据的局限性。其核心研究问题在于探索多模态数据中行为特质与视觉、传记属性间的统计依赖与因果机制，为计算社会科学与个性化人工智能系统提供了大规模、可复现的研究基础。

当前挑战

PersonaX面临两大挑战：其一，在领域问题层面，需克服行为特质动态性与主观性带来的验证难题，确保LLM推断结果与真实人类特质的一致性；其二，在构建过程中，需处理多源异构数据的对齐问题，例如从CelebA到维基数据的实体链接，以及在不同评分尺度下保持LLM输出稳定性的技术瓶颈。此外，数据隐私保护与群体代表性偏差（如仅包含男性运动员）亦增加了构建复杂度。

常用场景

经典使用场景

在计算社会科学与个性化人工智能系统研究中，PersonaX数据集为多模态行为特征分析提供了重要基础。该数据集通过整合名人（CelebPersona）与运动员（AthlePersona）两类群体的面部图像、传记信息及大语言模型推断的行为特质，构建了跨模态关联研究的标准化平台。其经典应用场景聚焦于探索视觉特征、社会属性与行为特质之间的统计关联，例如通过独立性检验分析面部结构与五大人格特质的相关性，为理解人类外在表现与内在行为模式的关系提供数据支撑。

解决学术问题

PersonaX有效解决了多模态行为研究中数据碎片化的核心问题。传统数据集往往缺乏将行为描述与面部属性、传记信息相结合的跨模态标注，而该数据集通过统一的大五人格框架和三种高性能LLM的协同推断，实现了对9444位公众人物和4181名运动员的多维度特质量化。其意义在于建立了可复现的群体级行为分析基准，既避免了临床诊断的伦理风险，又通过非侵入式信号采集推动了人格计算领域的方法论创新，为跨模态因果推理研究奠定了数据基础。

实际应用

该数据集在现实场景中支撑了多领域应用创新。在智能人机交互领域，基于面部特征与行为特质的关联模式可优化虚拟助手的个性化响应机制；在数字营销中，通过公众人物特质分析可提升品牌代言人匹配精度；在职业发展指导方面，运动员的行为特质模式为人才选拔提供了跨领域参考。此外，其隐私保护设计（如嵌入表示替代原始数据）为合规的商业化应用提供了技术范本，尤其在需要平衡数据效用与隐私保护的垂直行业中具有示范价值。

数据集最近研究