deeppersona_dataset

Hugging Face2025-11-10 更新2025-11-11 收录

下载链接：

https://huggingface.co/datasets/THzva/deeppersona_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

DeepPersona数据集包含了用于生成具有丰富个性的AI角色档案的属性分类和示例档案。数据集分为不同的目录，包含特定国家的JSON格式的属性和档案示例。属性被分为12个主要类别，档案则包括有关角色的详细信息。该数据集遵循知识共享署名4.0国际许可。

创建时间：

2025-11-09

原始信息汇总

DeepPersona Dataset 数据集概述

数据集简介

该数据集包含DeepPersona项目的属性分类法和配置文件示例，该项目是一个生成具有丰富个性的逼真AI角色配置文件的框架。

数据集结构

属性文件目录

包含DeepPersona用于配置文件生成的属性分类法：

attributes_merged.json (201 KB)：完整合并的属性分类法
attribute_embeddings.pkl (6.5 MB)：预计算的属性匹配嵌入
large_attributes.json (98 KB)：扩展属性集
small_attributes.json (8 KB)：紧凑属性集
occupations_english.json (29 KB)：综合职业列表

属性分类体系

属性分类法组织为12个主要类别：

人口统计信息
身体和健康特征
心理和认知方面
文化和社会背景
关系和社会网络
职业和工作身份
教育和学习
爱好、兴趣和生活方式
生活方式和日常作息
核心价值观、信仰和哲学
情感和关系技能
媒体消费和参与

配置文件示例目录

包含来自不同国家和地区的生成配置文件示例：

文件	描述	大小
profile_arg.json	阿根廷配置文件	1.0 MB
profile_aus.json	澳大利亚配置文件	1.0 MB
profile_chn.json	中国配置文件	1.0 MB
profile_deu.json	德国配置文件	1.0 MB
profile_ind.json	印度配置文件	1.0 MB
profile_jap.json	日本配置文件	1.0 MB
profile_ken.json	肯尼亚配置文件	1.0 MB
profile_usa.json	美国配置文件	1.1 MB
profile_world.json	全球配置文件	1.6 MB
profile_world_4.1.json	全球配置文件(GPT-4.1)	1.9 MB

配置文件内容

每个配置文件包含：

基本人口统计信息
个人价值观和生活态度
生活故事和背景
兴趣和爱好
详细属性注释
第一人称叙述摘要

使用方式

可通过以下方法生成自定义配置文件：

使用Web界面：https://huggingface.co/spaces/THzva/deeppersona-experience
使用代码：https://github.com/thzva/Deeppersona

许可证

该数据集基于CC BY 4.0许可证发布：https://creativecommons.org/licenses/by/4.0/

搜集汇总

数据集介绍

构建方式

在人工智能角色建模领域，DeepPersona数据集的构建采用了系统化的属性分类法，通过整合12个核心维度构建了完整的角色属性体系。该体系涵盖人口统计特征、心理认知特质、文化社会背景等关键层面，并基于大规模语言模型生成具有地域代表性的角色档案。每个档案均包含从基础属性到第一人称叙事的多层次结构化数据，确保了角色特征的丰富性与逻辑一致性。

特点

该数据集最显著的特征在于其精细化的多维度属性分类系统，将角色特征划分为12个相互关联的范畴。每个角色档案不仅包含标准化的属性标注，还融合了具有文化地域特色的生活叙事，形成了从抽象特征到具体形象的系统性表达。数据集提供的预计算属性嵌入向量，为研究者在语义空间中进行角色特征匹配与相似度计算提供了重要技术支持。

使用方法

研究者可通过多种途径利用该数据集进行深度探索，既可通过官方提供的交互式网页界面直观体验角色生成过程，也可访问开源代码库进行定制化开发。数据集支持从基础属性配置到完整角色叙事的全流程生成，用户能够基于预定义的属性体系或扩展自定义特征，生成具有不同文化背景与人格特质的虚拟角色，为对话系统、叙事生成等应用场景提供丰富的数据支撑。

背景与挑战

背景概述

DeepPersona数据集作为人工智能角色建模领域的重要资源，由研究团队于当代人工智能发展高峰期构建，致力于解决虚拟角色生成中人格特征单一化的核心问题。该数据集通过系统化整合12个维度的属性分类体系，涵盖从人口统计特征到媒体消费行为的完整人格要素，为生成具有文化适应性与心理真实感的AI角色提供了结构化知识基础。其跨国家地区的样本分布架构，显著推动了对话系统与虚拟角色生成技术在人文维度上的深化发展。

当前挑战

在构建过程中面临属性体系多维度融合的复杂性挑战，需平衡12个主要类别间数千项属性的语义关联与逻辑一致性。跨文化人格特征的表征难题尤为突出，要求在不同国家地区的样本中保持文化特质与普适价值的辩证统一。技术层面需攻克属性嵌入向量的语义空间优化，确保生成角色在叙事连贯性与心理真实性达到平衡，同时应对大规模多语言数据标注中的文化偏差校正问题。

常用场景

经典使用场景

在人工智能与人格建模领域，DeepPersona数据集为生成具有丰富个性的虚拟角色档案提供了核心支撑。其经典应用场景聚焦于通过系统化属性分类体系，构建涵盖人口统计特征、心理认知维度及社会文化背景的多层次人物画像，为对话系统与叙事生成任务注入真实可信的人格特质。

实际应用

在产业实践中，该数据集已成为游戏角色生成与沉浸式叙事系统的关键组件。其覆盖八大国家的多文化档案样本，为跨国企业的用户体验设计提供文化适配方案，同时在心理辅导机器人开发领域，通过精准的人格特质模拟增强了人机交互的情感深度。

衍生相关工作

基于该数据集衍生的经典研究包括跨文化人格计算框架的构建，以及生成式对抗网络在人格连续性建模中的创新应用。这些工作通过融合属性嵌入与叙事生成技术，推动了动态人格模拟系统的发展，为数字孪生领域的人格建模开辟了新路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集