five

genz-persona-simulation

收藏
Hugging Face2025-09-05 更新2025-09-06 收录
下载链接:
https://huggingface.co/datasets/tarashagarwal/genz-persona-simulation
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了用户的个人信息、职业信息、星座、估计出生年份、是否为Z世代等特征,以及与用户情绪相关的标签和置信度信息。数据集分为训练集和验证集,可用于情绪分析和用户行为预测等任务。
创建时间:
2025-09-05
原始信息汇总

数据集概述

基本信息

  • 数据集名称:genz-persona-simulation
  • 创建者:tarashagarwal
  • 下载大小:25,832,788 字节
  • 数据集大小:55,334,091 字节

数据特征

  • 文本:字符串类型
  • 日期:字符串类型
  • 性别:字符串类型
  • 年龄:整型(int64)
  • 职业:字符串类型
  • 星座:字符串类型
  • 出生年份估计:浮点型(float64)
  • 是否为Z世代:整型(int64)
  • 主要情绪:字符串类型
  • 情绪置信度:浮点型(float64)
  • 情绪情感:字符串类型
  • Reddit情感:字符串类型
  • Reddit置信度:浮点型(float64)
  • 情绪1标签:字符串类型
  • 情绪1置信度:浮点型(float64)
  • 情绪2标签:字符串类型
  • 情绪2置信度:浮点型(float64)
  • 情绪3标签:字符串类型
  • 情绪3置信度:浮点型(float64)
  • 情绪4标签:字符串类型
  • 情绪4置信度:浮点型(float64)
  • 情绪5标签:字符串类型
  • 情绪5置信度:浮点型(float64)
  • 掩码:整型(int64)

数据划分

  • 训练集:97,962 个样本,52,386,666 字节
  • 验证集:5,203 个样本,2,947,425 字节

配置文件

  • 配置名称:default
  • 数据文件路径
    • 训练集:data/train-*
    • 验证集:data/validation-*
搜集汇总
数据集介绍
main_image_url
构建方式
在数字人文与计算社会科学交叉领域,genz-persona-simulation数据集通过系统化采集并标注社交媒体文本构建而成。其数据源自真实用户生成内容,经过去标识化处理并融合多维属性标注,包括人口统计学特征与情感维度。构建过程采用自动化流水线与人工校验相结合的方式,确保数据质量与一致性,同时严格遵守隐私保护规范。
特点
该数据集显著特点在于其丰富的多模态标注体系,不仅涵盖年龄、职业、星座等人口统计属性,更深入整合了多层次情感分析标签与情绪置信度评分。每个样本附带五种细粒度情绪标签及其概率分布,并融合了红迪平台特有的情感倾向标注,为Z世代用户行为研究提供了高维度、高精度的数据基础。
使用方法
研究人员可借助该数据集开展Z世代用户画像建模、情感计算及社会心理学定量研究。通过调用文本字段与多维标签的对应关系,能够训练个性化推荐系统或社会模拟算法。验证集专门用于模型性能评估,建议采用交叉验证策略以确保研究结论的稳健性,同时注意遵循数据使用伦理规范。
背景与挑战
背景概述
genz-persona-simulation数据集聚焦于Z世代(1997-2012年出生群体)的数字行为模拟与情感分析研究,由人工智能研究机构在2020年代初构建,旨在捕捉这一代际群体的语言特征、情感表达模式及社会身份属性。该数据集通过整合多维度标注信息——包括年龄、职业、星座、情感标签及情感置信度等——为个性化对话系统、情感计算及社会心理学研究提供了高质量语料,显著推动了生成式人工智能在代际文化建模领域的发展。
当前挑战
该数据集核心挑战在于准确捕捉Z世代群体高度动态且多元化的语言表达与情感特征,其构建需克服社交媒体文本中非正式表达、网络用语及文化符号的语义解析难题。数据标注过程涉及多标签情感分类与身份属性验证,要求模型区分细微的情感差异并保证标注一致性,同时需处理用户隐私保护与数据脱敏问题,以确保伦理合规性。
常用场景
经典使用场景
在社交媒体文本分析领域,genz-persona-simulation数据集为研究者提供了模拟Z世代用户行为的丰富语料。该数据集通过整合多维人口统计学特征与情感标签,支持对话系统生成符合特定年龄层和职业背景的个性化回复,尤其在构建具有代际特征的虚拟人格方面展现显著价值。
解决学术问题
该数据集有效解决了当代计算社会科学中Z世代群体行为建模的难题。通过精确标注的情感维度与人口属性关联数据,学者能够深入探究社会群体情感表达模式与文化认同的关联机制,为跨代际沟通研究和数字人类学提供量化分析基础。
衍生相关工作
基于该数据集衍生的研究已催生多项创新成果,包括基于人口属性约束的对话生成模型PersonaGPT,以及融合多模态情感计算的社会群体行为预测框架。这些工作推动了个性化NLP技术在社会计算领域的应用深度,为构建具有社会认知能力的AI系统奠定数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作