five

facebook-users-data

收藏
Hugging Face2025-11-17 更新2025-11-18 收录
下载链接:
https://huggingface.co/datasets/tamarabanaim/facebook-users-data
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个假定的Facebook用户行为分析数据集,包含了99903名Facebook用户的互动数据,主要关注人口统计信息和互动度指标,例如给出的点赞数、收到的点赞数、好友数量和账户使用年限。分析侧重于探讨年龄与用户活跃度之间的关系,以及哪些因素会影响用户在平台上的互动。
创建时间:
2025-11-11
原始信息汇总

Facebook用户参与度分析数据集概述

数据集基本信息

  • 数据集名称: Pseudo Facebook Dataset
  • 作者: Tamara Banaim
  • 数据来源: Kaggle(已上传至Hugging Face)
  • 样本规模: 99,003名Facebook用户

数据内容与特征

数据字段

  • 人口统计信息
  • 参与度指标:点赞数、收到点赞数、好友数量
  • 账户使用时长

数据预处理

  • 移除了年龄不现实的用户(<13岁或>80岁)
  • 确认无重复行
  • 验证无缺失数值
  • 将使用时长转换为数值类型

异常值处理

  • 使用IQR方法检测到friend_countlikeslikes_received列的异常值
  • 保留了极端值,认为可能代表高度活跃用户的真实行为

描述性统计

  • 用户平均年龄:28.6岁
  • 平均点赞数:145.3
  • 平均收到点赞数:93.2
  • 平均账户使用时长:835天
  • 年龄与收到点赞数的相关性:-0.09(弱相关)
  • 点赞数与收到点赞数的相关性:0.44(中等相关)

研究洞察

年龄与参与度关系

  • 22-25岁用户最活跃,点赞数最多
  • 13-15岁和70岁以上用户参与度显著较低
  • 早期成年期是Facebook上社交最活跃的时期

参与度互惠性

  • 所有年龄段都存在点赞数与收到点赞数的正相关关系
  • 无论年龄大小,参与度往往是互惠的

使用时长影响

  • 年长用户通常有更长的账户使用时长,但收到的点赞较少
  • 较长的会员资格并不一定导致年长人群的更高参与度

数据集文件

  • pseudo_facebook.csv – 原始数据集
  • Assignment #1 Tamara Banaim - EDA & Dataset.ipynb – 完整探索性数据分析代码笔记本
  • README.md – 研究发现和可视化总结

主要结论

  • 参与度在20岁出头的用户中最高,在年龄极端处下降
  • 账户使用时长不能解释年长用户参与度较低的现象
  • 较高的外向参与度(点赞数)与收到更多互动相关
  • 年龄本身不是强预测因子,但与用户行为相互作用影响参与度
搜集汇总
数据集介绍
main_image_url
构建方式
在社交媒体分析领域,该数据集源自Kaggle平台的伪Facebook用户数据,经系统化清洗后整合至HuggingFace平台。原始数据涵盖99,003名用户的行为记录,通过严格的年龄验证剔除了13岁以下及80岁以上的非常规样本,确保数据符合社交平台用户年龄分布规律。数据预处理阶段采用四分位距法识别了好友数量、点赞行为等指标的异常值,但保留了极端活跃用户的真实行为模式,最终形成包含用户年龄、点赞交互、好友数量及账号存续期等核心变量的结构化数据集。
特点
该数据集呈现出社交媒体用户行为的典型特征,其核心价值在于揭示了年龄与互动行为的动态关联。数据显示用户平均年龄为28.6岁,日均点赞行为呈现145.3次的活跃度,而点赞接收量均值为93.2次。特别值得注意的是,年龄与点赞接收量之间存在微弱负相关(-0.09),而主动点赞与接收点赞则呈现中等程度正相关(0.44)。这些特征生动刻画了早期成年用户(22-25岁)作为平台最活跃群体的行为模式,为研究数字社交的代际差异提供了量化依据。
使用方法
该数据集适用于社交网络分析与用户行为建模研究,研究者可通过加载CSV格式的原始文件直接获取结构化数据。典型应用场景包括构建用户活跃度预测模型,通过账号存续期、好友数量等变量分析互动行为规律;亦可结合可视化工具绘制年龄分布热力图,深入解析不同年龄段用户的社交参与模式。数据集中经过清洗的数值型变量可直接用于相关性分析,而保留的异常值则为研究高活跃用户群体提供了独特视角,助力学者探索社交平台参与机制的内在规律。
背景与挑战
背景概述
社交媒体分析领域在数字时代日益重要,Facebook用户参与度分析数据集由研究员Tamara Banaim构建,聚焦于99003名用户的社交行为模式。该数据集整合了人口统计学特征与平台互动指标,包括点赞行为、好友数量和账户存续时间等核心维度,旨在揭示年龄因素与用户活跃度的内在关联。通过系统分析青年群体在社交网络中的行为特征,为理解虚拟社区中的人际互动机制提供了实证基础,对社交计算和数字人类学研究具有显著参考价值。
当前挑战
在解决用户参与度预测问题时,需克服年龄与互动行为非线性关系的建模难题,以及极端活跃用户行为对统计模型的干扰。数据构建过程中面临真实性与代表性平衡的挑战:既要保留反映特殊用户群体的统计离群值,又需通过数据清洗剔除年龄异常等无效记录。此外,社交平台数据的动态演化特性要求持续更新标注标准,以应对用户行为模式随时代变迁而产生的结构性变化。
常用场景
经典使用场景
在社交媒体行为分析领域,该数据集常被用于探索用户年龄与互动行为之间的动态关联。通过整合近十万用户的账户存续期、点赞行为及好友数量等指标,研究者能够构建多维度的用户画像,揭示不同年龄段群体在社交平台上的活跃规律。例如,分析显示22至25岁用户呈现出最高的点赞频率,而青少年与老年群体的参与度显著偏低,这为理解生命周期中的社交行为变迁提供了实证基础。
实际应用
在商业智能领域,该数据集为平台运营策略优化提供了关键洞察。基于年龄分层的互动模式分析,可指导内容推荐算法针对不同用户群体实施差异化策略。例如,针对高活跃度的青年用户群体设计病毒式传播内容,同时为参与度较低的老年用户开发简化交互功能。此外,企业可依据点赞行为的互惠规律设计激励机制,有效提升平台整体用户黏性与商业转化率。
衍生相关工作
该数据集催生了多项社交计算领域的创新研究。有学者基于其年龄与行为关联性发现,开发了动态用户参与度预测模型,后续研究进一步结合图神经网络技术构建了跨平台用户迁移行为分析框架。此外,数据中揭示的互动 reciprocity 现象启发了社交影响力传播模型的改进,相关成果已应用于信息扩散仿真与虚假内容检测系统的开发。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作