genz-persona-simulation

Hugging Face2025-09-05 更新2025-09-06 收录

下载链接：

https://huggingface.co/datasets/tarashagarwal/genz-persona-simulation

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了用户的个人信息、职业信息、星座、估计出生年份、是否为Z世代等特征，以及与用户情绪相关的标签和置信度信息。数据集分为训练集和验证集，可用于情绪分析和用户行为预测等任务。

创建时间：

2025-09-05

原始信息汇总

数据集概述

基本信息

数据集名称：genz-persona-simulation
创建者：tarashagarwal
下载大小：25,832,788 字节
数据集大小：55,334,091 字节

数据特征

文本：字符串类型
日期：字符串类型
性别：字符串类型
年龄：整型（int64）
职业：字符串类型
星座：字符串类型
出生年份估计：浮点型（float64）
是否为Z世代：整型（int64）
主要情绪：字符串类型
情绪置信度：浮点型（float64）
情绪情感：字符串类型
Reddit情感：字符串类型
Reddit置信度：浮点型（float64）
情绪1标签：字符串类型
情绪1置信度：浮点型（float64）
情绪2标签：字符串类型
情绪2置信度：浮点型（float64）
情绪3标签：字符串类型
情绪3置信度：浮点型（float64）
情绪4标签：字符串类型
情绪4置信度：浮点型（float64）
情绪5标签：字符串类型
情绪5置信度：浮点型（float64）
掩码：整型（int64）

数据划分

训练集：97,962 个样本，52,386,666 字节
验证集：5,203 个样本，2,947,425 字节

配置文件

配置名称：default
数据文件路径：
- 训练集：data/train-*
- 验证集：data/validation-*

搜集汇总

数据集介绍

构建方式

在数字人文与计算社会科学交叉领域，genz-persona-simulation数据集通过系统化采集并标注社交媒体文本构建而成。其数据源自真实用户生成内容，经过去标识化处理并融合多维属性标注，包括人口统计学特征与情感维度。构建过程采用自动化流水线与人工校验相结合的方式，确保数据质量与一致性，同时严格遵守隐私保护规范。

特点

该数据集显著特点在于其丰富的多模态标注体系，不仅涵盖年龄、职业、星座等人口统计属性，更深入整合了多层次情感分析标签与情绪置信度评分。每个样本附带五种细粒度情绪标签及其概率分布，并融合了红迪平台特有的情感倾向标注，为Z世代用户行为研究提供了高维度、高精度的数据基础。

使用方法

研究人员可借助该数据集开展Z世代用户画像建模、情感计算及社会心理学定量研究。通过调用文本字段与多维标签的对应关系，能够训练个性化推荐系统或社会模拟算法。验证集专门用于模型性能评估，建议采用交叉验证策略以确保研究结论的稳健性，同时注意遵循数据使用伦理规范。

背景与挑战

背景概述

genz-persona-simulation数据集聚焦于Z世代（1997-2012年出生群体）的数字行为模拟与情感分析研究，由人工智能研究机构在2020年代初构建，旨在捕捉这一代际群体的语言特征、情感表达模式及社会身份属性。该数据集通过整合多维度标注信息——包括年龄、职业、星座、情感标签及情感置信度等——为个性化对话系统、情感计算及社会心理学研究提供了高质量语料，显著推动了生成式人工智能在代际文化建模领域的发展。

当前挑战

该数据集核心挑战在于准确捕捉Z世代群体高度动态且多元化的语言表达与情感特征，其构建需克服社交媒体文本中非正式表达、网络用语及文化符号的语义解析难题。数据标注过程涉及多标签情感分类与身份属性验证，要求模型区分细微的情感差异并保证标注一致性，同时需处理用户隐私保护与数据脱敏问题，以确保伦理合规性。

常用场景

经典使用场景

在社交媒体文本分析领域，genz-persona-simulation数据集为研究者提供了模拟Z世代用户行为的丰富语料。该数据集通过整合多维人口统计学特征与情感标签，支持对话系统生成符合特定年龄层和职业背景的个性化回复，尤其在构建具有代际特征的虚拟人格方面展现显著价值。

解决学术问题

该数据集有效解决了当代计算社会科学中Z世代群体行为建模的难题。通过精确标注的情感维度与人口属性关联数据，学者能够深入探究社会群体情感表达模式与文化认同的关联机制，为跨代际沟通研究和数字人类学提供量化分析基础。

衍生相关工作

基于该数据集衍生的研究已催生多项创新成果，包括基于人口属性约束的对话生成模型PersonaGPT，以及融合多模态情感计算的社会群体行为预测框架。这些工作推动了个性化NLP技术在社会计算领域的应用深度，为构建具有社会认知能力的AI系统奠定数据基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集