five

PersonaX

收藏
arXiv2025-09-15 更新2025-11-21 收录
下载链接:
https://hf-mirror.com/Persona-X/datasets
下载链接
链接失效反馈
官方服务:
资源简介:
PersonaX是一个多模态数据集集合,旨在全面分析公共特征。它由两部分组成:CelebPersona,包含来自CelebA数据集的9444位公众人物,以及AthlePersona,覆盖7个主要体育联盟的4181名职业运动员。每个数据集都包括由三个高性能大型语言模型推断的行为特征评估,以及面部图像和结构化的传记信息。PersonaX提供了一个研究LLM推断行为特征与视觉和传记属性相结合的独特基础,促进了多模态特征分析和因果推理的新途径。
提供机构:
Zayed大学人工智能学院,卡内基梅隆大学,加利福尼亚大学圣地亚哥分校,澳大利亚国立大学
创建时间:
2025-09-15
搜集汇总
数据集介绍
main_image_url
构建方式
PersonaX数据集的构建采用多模态融合策略,通过整合公开人物的面部图像、结构化传记信息与基于大语言模型推断的行为特质数据。具体而言,CelebPersona子集以CelebA数据集为基础,通过链接Wikidata实体补充传记细节,并筛选10项稳定的面部属性;AthlePersona子集则从七大体育联盟官方网站收集运动员数据,包括面部图像和生理特征。两个子集均利用三种高性能大语言模型生成行为特质描述与五大性格特质分数,确保数据来源合法且符合隐私保护原则。
使用方法
该数据集支持多层次分析框架:在结构化层面,可应用独立性检验探究行为特质与其他模态的统计依赖关系;在非结构化层面,通过因果表征学习框架从图像与文本中提取潜在变量并构建因果图。研究人员可基于嵌入向量进行跨模态关联分析,或利用提供的因果模型研究特质形成的机制。数据使用需遵循非商业许可,禁止应用于高风险决策场景,确保符合伦理准则。
背景与挑战
背景概述
PersonaX数据集于2025年由穆罕默德·本·扎耶德人工智能大学、卡内基梅隆大学等机构联合发布,聚焦于人类行为特质的跨模态分析。该数据集通过整合大型语言模型推断的行为特征、面部图像与结构化传记信息,旨在解决传统心理学研究中依赖自我报告数据的局限性。其核心研究问题在于探索多模态数据中行为特质与视觉、传记属性间的统计依赖与因果机制,为计算社会科学与个性化人工智能系统提供了大规模、可复现的研究基础。
当前挑战
PersonaX面临两大挑战:其一,在领域问题层面,需克服行为特质动态性与主观性带来的验证难题,确保LLM推断结果与真实人类特质的一致性;其二,在构建过程中,需处理多源异构数据的对齐问题,例如从CelebA到维基数据的实体链接,以及在不同评分尺度下保持LLM输出稳定性的技术瓶颈。此外,数据隐私保护与群体代表性偏差(如仅包含男性运动员)亦增加了构建复杂度。
常用场景
经典使用场景
在计算社会科学与个性化人工智能系统研究中,PersonaX数据集为多模态行为特征分析提供了重要基础。该数据集通过整合名人(CelebPersona)与运动员(AthlePersona)两类群体的面部图像、传记信息及大语言模型推断的行为特质,构建了跨模态关联研究的标准化平台。其经典应用场景聚焦于探索视觉特征、社会属性与行为特质之间的统计关联,例如通过独立性检验分析面部结构与五大人格特质的相关性,为理解人类外在表现与内在行为模式的关系提供数据支撑。
解决学术问题
PersonaX有效解决了多模态行为研究中数据碎片化的核心问题。传统数据集往往缺乏将行为描述与面部属性、传记信息相结合的跨模态标注,而该数据集通过统一的大五人格框架和三种高性能LLM的协同推断,实现了对9444位公众人物和4181名运动员的多维度特质量化。其意义在于建立了可复现的群体级行为分析基准,既避免了临床诊断的伦理风险,又通过非侵入式信号采集推动了人格计算领域的方法论创新,为跨模态因果推理研究奠定了数据基础。
实际应用
该数据集在现实场景中支撑了多领域应用创新。在智能人机交互领域,基于面部特征与行为特质的关联模式可优化虚拟助手的个性化响应机制;在数字营销中,通过公众人物特质分析可提升品牌代言人匹配精度;在职业发展指导方面,运动员的行为特质模式为人才选拔提供了跨领域参考。此外,其隐私保护设计(如嵌入表示替代原始数据)为合规的商业化应用提供了技术范本,尤其在需要平衡数据效用与隐私保护的垂直行业中具有示范价值。
数据集最近研究
最新研究方向
在计算社会科学与个性化人工智能系统领域,PersonaX数据集通过整合大语言模型推断的行为特征、面部图像与结构化传记信息,推动了多模态行为分析的前沿研究。当前研究聚焦于探索跨模态统计依赖关系与因果表示学习,利用多测量数据框架揭示行为特征与面部属性、地理因素间的内在关联。该数据集为分析公众人物在视觉、文本与社会属性中的不变因果模式提供了基础,促进了多模态解释与因果推理的发展,并在隐私保护前提下拓展了人类行为研究的深度与广度。
相关研究论文
  • 1
    通过Zayed大学人工智能学院,卡内基梅隆大学,加利福尼亚大学圣地亚哥分校,澳大利亚国立大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作