Synthetic Personality Dataset: Introverts and Extroverts
收藏github2025-08-07 更新2025-08-11 收录
下载链接:
https://github.com/syncora-ai/synthetic-personality-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该合成人格数据集包含10,000条高保真合成记录,模拟了内向和外向个体的行为和社会模式。使用Syncora.ai的合成数据引擎生成,该数据集保留了真实世界的行为分布,同时确保零隐私风险。
This synthetic personality dataset comprises 10,000 high-fidelity synthetic records that simulate the behavioral and social patterns of introverted and extroverted individuals. Generated using Syncora.ai's synthetic data engine, this dataset retains real-world behavioral distributions while ensuring zero privacy risks.
创建时间:
2025-07-31
原始信息汇总
Synthetic Personality Dataset: Introverts and Extroverts 概述
数据集简介
- 数据量:10,000条高保真合成记录
- 生成方式:使用Syncora.ai的合成数据引擎生成
- 特点:模拟真实世界行为分布,零隐私风险
- 目标用户:研究人员、数据科学家和AI开发者
- 应用场景:性格预测、行为建模、机器学习实验和社会科学研究
上下文与应用
- 研究背景:内向外向性格影响个体的社交、充电和对外界刺激的反应
- 模拟行为:
- 独处时间
- 社交活动参与频率
- 社交媒体发帖习惯
- 社交后疲惫感
- 适用领域:
- 心理学与行为科学研究
- 营销与受众细分
- 人机交互设计
- 机器学习模型开发
数据集特征
| 列名 | 描述 |
|---|---|
| Time_spent_Alone | 每日独处平均小时数(0-11) |
| Stage_fear | 舞台恐惧指示器(0:无,1:有) |
| Social_event_attendance | 每周社交活动频率(0-10) |
| Going_outside | 每周户外活动频率(0-7) |
| Drained_after_socializing | 社交后疲惫指示器(0:无,1:有) |
| Friends_circle_size | 亲密朋友数量(0-15) |
| Post_frequency | 每周社交媒体发帖数(0-10) |
| Personality | 目标标签(0:外向,1:内向) |
数据特性
- 规模:10,000条记录 × 8个变量
- 格式:CSV格式,兼容Python、R、Excel等工具
- 缺失数据:部分特征存在缺失(适合插补练习)
- 平衡类别:性格类型分布均衡
- 二进制编码:分类特征编码为0/1,便于建模
机器学习与分析用例
- 性格预测:构建ML模型分类性格类型
- 行为趋势分析:探索不同性格类型的习惯
- 数据预处理:练习插补、编码和特征工程
- 可视化项目:创建仪表板或EDA图表
- 无偏见AI训练:隐私安全数据集,符合合规要求
选择Syncora的原因
- 独特且真实的样本
- 统计保留特征间关系
- 可定制的变量分布
- 可扩展的记录生成,适用于研究和原型设计
免责声明
- 100%合成数据集,不代表任何真实个体
- 适用于心理学、数据科学和机器学习的教育、实验和分析用途
搜集汇总
数据集介绍

构建方式
该数据集通过Syncora.ai的合成数据引擎生成,包含10,000条高保真合成记录,模拟了内向和外向个体的行为及社交模式。生成过程中严格遵循真实世界的行为分布,确保数据既具有现实代表性,又完全规避了隐私风险。数据涵盖了个体独处时间、社交活动频率、社交媒体使用习惯等多维度指标,并通过二进制编码简化了分类特征的建模过程。
使用方法
该数据集适用于心理学研究、市场细分分析以及机器学习模型开发等多个场景。研究者可直接加载CSV文件进行探索性数据分析,或利用其平衡的类别分布构建人格预测模型。数据中预设的缺失值为特征工程提供了实践机会,而清晰的变量定义则方便快速建立行为分析框架。在人工智能领域,该数据集特别适合作为无偏见的训练素材,用于开发符合伦理规范的分类算法。
背景与挑战
背景概述
Synthetic Personality Dataset: Introverts and Extroverts是由Syncora.ai于近年推出的一项高保真合成数据集,专注于模拟内向型与外向型人格的行为特征。该数据集由10,000条合成记录构成,涵盖了社交活动频率、独处时间、社交媒体使用习惯等关键行为指标,旨在为心理学、行为科学及人工智能领域提供无隐私风险的实验数据。其核心研究问题聚焦于人格特质与行为模式之间的关联性,通过精确复现真实世界的行为分布,为研究者探索人格分类模型、社会行为预测及人机交互设计提供了重要基础。该数据集的出现,填补了隐私敏感领域高质量训练数据的空白,推动了伦理AI的发展进程。
当前挑战
该数据集面临的挑战主要体现在两个方面:在领域问题层面,人格特质具有连续谱系特性,而现有二元分类框架(内向/外向)可能无法捕捉中间型人格的复杂行为模式,这对模型的泛化能力提出更高要求;在构建过程中,如何平衡合成数据的真实性与多样性成为关键难题,需确保生成的虚拟行为既符合心理学统计规律,又能覆盖边缘案例。此外,社交行为指标的量化标准(如'社交疲惫感'的二进制编码)可能过度简化了真实心理状态的多维性,这对后续研究的生态效度构成潜在限制。
常用场景
经典使用场景
在心理学与行为科学研究领域,Synthetic Personality Dataset为探索内向与外向人格特质的行为差异提供了标准化数据支持。该数据集通过模拟个体在社交活动参与频率、独处时间偏好等维度上的行为模式,成为构建人格分类模型的核心训练素材。研究者可基于其高保真合成数据,分析两种人格类型在社交媒体使用、社交倦怠等指标上的统计分布规律。
解决学术问题
该数据集有效解决了人格心理学研究中真实数据获取困难与隐私保护的矛盾问题。通过合成数据技术,研究者得以突破传统问卷调查的样本量限制,系统性地验证诸如'外向者更频繁参与社交活动'等理论假设。其平衡的类别分布与预设的缺失值,也为机器学习领域提供了检验分类算法鲁棒性的理想基准。
实际应用
商业智能领域将该数据集应用于消费者行为分析与市场细分。营销人员通过模拟不同人格特质用户的线上行为轨迹,优化广告投放策略与产品推荐系统。在人机交互设计中,该数据帮助开发者构建更具人格适应性的对话系统,例如为内向型用户设计更低频的社交提醒机制。
数据集最近研究
最新研究方向
在心理学与计算社会科学的交叉领域,Synthetic Personality Dataset为研究者提供了探索内向与外向人格特质的新视角。该数据集通过高保真合成数据模拟真实行为模式,成为机器学习模型在人格分类任务中的重要基准。近期研究聚焦于利用该数据集开发轻量化人格预测模型,结合社交行为特征挖掘潜在心理模式,同时在隐私保护前提下推动个性化推荐系统的伦理设计。其平衡的样本分布与结构化特征也为跨文化人格研究提供了标准化分析框架,尤其在虚拟社交行为与线下活动关联性研究中展现出独特价值。
以上内容由遇见数据集搜集并总结生成



