test-Personas-USA
收藏Hugging Face2025-10-28 更新2025-10-29 收录
下载链接:
https://huggingface.co/datasets/gretelai/test-Personas-USA
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含用户的各种个人信息,如职业角色、运动偏好、艺术偏好、旅游偏好、烹饪偏好、个人特质、文化背景、技能与专长、兴趣爱好、职业目标、性别、年龄、婚姻状况、教育水平、本科专业、职业、城市、州、邮编和国家等信息。数据集划分为训练集,共有9939个示例。
提供机构:
Gretel.ai
创建时间:
2025-10-28
原始信息汇总
数据集概述
基本信息
- 数据集名称: test-Personas-USA
- 数据量: 9,939 条样本
- 数据集大小: 53,008,758 字节
- 下载大小: 26,778,792 字节
- 数据格式: 结构化数据
数据特征
标识信息
- uuid:唯一标识符
人物画像维度
- professional_persona:职业画像
- sports_persona:运动画像
- arts_persona:艺术画像
- travel_persona:旅行画像
- culinary_persona:烹饪画像
- persona:综合画像
个人背景特征
- cultural_background:文化背景
- skills_and_expertise:技能专长
- skills_and_expertise_list:技能专长列表
- hobbies_and_interests:兴趣爱好
- hobbies_and_interests_list:兴趣爱好列表
- career_goals_and_ambitions:职业目标与抱负
人口统计信息
- sex:性别
- age:年龄
- marital_status:婚姻状况
- education_level:教育程度
- bachelors_field:学士专业领域
- occupation:职业
地理位置信息
- city:城市
- state:州
- zipcode:邮编
- country:国家
数据划分
- 训练集: 9,939 条样本,53,008,758 字节
搜集汇总
数据集介绍

构建方式
在人物画像建模领域,test-Personas-USA数据集通过系统化的数据采集流程构建而成。该数据集收录了9939个美国居民样本,每个样本包含21个维度的属性特征,涵盖职业发展、文化背景、技能专长、兴趣爱好等多个层面。数据采集过程注重人口统计学特征的均衡分布,确保年龄、性别、教育程度等关键变量的代表性,为构建真实可信的人物画像提供坚实基础。
使用方法
在应用层面,该数据集为人物画像建模和个性化推荐系统提供了重要支撑。研究人员可通过加载训练集直接访问所有样本数据,利用丰富的特征字段构建多维人物画像模型。数据集的标准化格式便于与主流机器学习框架集成,支持从基础统计分析到复杂深度学习模型的全流程开发。特别适用于研究美国人群特征分布、开发个性化服务系统等应用场景。
背景与挑战
背景概述
在人工智能与社会科学交叉领域,test-Personas-USA数据集由美国研究机构于2023年构建,旨在通过多维人格特征建模推动个性化系统发展。该数据集聚焦于解析个体在职业、文化、技能等九大维度的行为模式,为推荐系统与用户画像研究提供结构化数据支撑。其涵盖近万条美国居民样本,通过量化教育背景、职业轨迹与生活兴趣的关联性,显著提升了跨领域用户建模的实证研究能力。
当前挑战
该数据集需解决个性化推荐中动态人格建模的复杂性挑战,包括多源行为特征的语义对齐、长尾兴趣分布的样本覆盖等问题。构建过程中面临文化背景与行为表征的标注一致性难题,例如职业变迁与技能演化的时序追踪,以及地理分布与人口统计学变量的代表性平衡。这些挑战直接影响人格计算模型在真实场景中的泛化效能。
常用场景
经典使用场景
在个性化推荐系统研究中,test-Personas-USA数据集通过多维人物画像特征构建,为算法模型提供了丰富的用户行为建模基础。该数据集整合了职业发展、艺术偏好、运动兴趣等多元维度,使研究人员能够深入分析用户兴趣与行为模式之间的复杂关联,为个性化服务提供精准的数据支撑。
解决学术问题
该数据集有效解决了用户画像构建中数据维度单一的关键问题,通过系统化整合人口统计学特征与行为偏好数据,为跨领域推荐算法研究提供了标准化评估基准。其多维度特征结构显著提升了用户兴趣建模的准确性,推动了个性化服务领域从粗放式分群向精细化画像的技术演进。
实际应用
在商业实践领域,该数据集为电商平台的商品推荐、内容媒体的信息流分发等场景提供了精准的用户理解能力。基于多维人物画像的建模技术,企业能够实现从通用推荐到个性化服务的转型升级,显著提升用户体验与商业转化效率,推动数字经济的智能化发展。
数据集最近研究
最新研究方向
在个性化人工智能与用户建模领域,test-Personas-USA数据集正推动多维度人物画像构建的前沿探索。该数据集通过整合专业背景、文化特征及生活兴趣等结构化属性,为生成式对话系统和推荐算法提供了丰富的语义基础。当前研究聚焦于跨领域人物属性融合技术,利用深度学习模型解析复杂社会特征之间的隐含关联,以增强虚拟助手的情感真实性和场景适应性。随着隐私保护法规的加强,差分隐私与联邦学习框架下的分布式人物画像学习已成为热点方向,该数据集为评估模型在保护个体信息前提下的表征能力提供了重要基准。
以上内容由遇见数据集搜集并总结生成



