digital-lifestyle-benchmark-data

github2025-11-27 更新2025-11-28 收录

下载链接：

https://github.com/tarekmasryo/digital-lifestyle-benchmark-data

下载链接

链接失效反馈

官方服务：

资源简介：

一个完整的数字生活方式与心理健康数据集，包含3,500条合成参与者记录，涵盖24个研究启发的特征，包括人口统计信息、数字行为指标（如每日屏幕时间、手机解锁次数、通知数量、社交媒体使用时间）和心理健康指标（如焦虑评分、抑郁评分、压力水平、幸福评分、专注评分、生产力评分），以及基于多因素健康评分的高风险标志二元标签

A comprehensive digital lifestyle and mental health dataset consisting of 3,500 synthetic participant records, covering 24 research-inspired features including demographic information, digital behavior metrics (e.g., daily screen time, number of mobile device unlocks, notification count, social media usage duration), mental health metrics (e.g., anxiety scores, depression scores, stress levels, happiness scores, focus scores, productivity scores), and a binary high-risk flag label based on multi-factor health scores

创建时间：

2025-11-09

原始信息汇总

数字生活习惯与心理健康数据集概述

数据集基本信息

数据集名称: Digital Habits and Mental Health
作者: Tarek Masryo
数据规模: 3,500条合成参与者记录
特征数量: 24个研究启发特征
数据类型: 表格数据（CSV格式）
目标变量: high_risk_flag

研究主题

探索屏幕时间和数字行为对心理健康结果的影响，包括焦虑、抑郁、压力、幸福感、专注度和生产力。

特征分组

人口统计学特征

年龄
性别
地区
收入水平
教育水平

数字行为特征

每日屏幕时间
手机解锁次数
通知数量
社交媒体使用时长
学习时间

心理健康指标

焦虑评分
抑郁评分
压力水平
幸福感评分
专注度评分
生产力评分

风险指标

digital_dependence_score（数字依赖评分）

评分系统说明

所有心理和行为指标均生成为0-100范围内的连续合成评分，而非固定的0-10李克特量表，这提供了更丰富的方差，使数据集更适合机器学习和行为分析。

目标变量定义

high_risk_flag是一个二元标签，代表具有较高心理健康脆弱性的个体。该标签通过结合以下因素的多因素幸福感评分规则定义：

高数字活动（屏幕时间、通知、解锁）
升高的压力/焦虑水平
较低的幸福感/专注度评分

高风险个体分布约为15-20%，反映了行为研究中报告的普遍率。

项目组件

数据集: 包含人口统计学、数字活动和心理健康指标的24个变量
笔记本: 完整的机器学习流程（探索性数据分析→特征工程→建模→可解释性）
模型: 逻辑回归、随机森林、XGBoost（支持GPU）
目标: 从行为和心理模式预测高心理健康风险

搜集汇总

数据集介绍

构建方式

在数字健康研究领域，该数据集通过合成数据生成技术构建了3500条模拟参与者记录。构建过程参考了心理学与行为科学的经典研究框架，采用连续型评分模型生成心理健康指标，突破了传统李克特量表的离散限制。每个样本涵盖24个研究驱动的特征维度，包括人口统计学属性、数字行为模式及心理健康评估指标，通过多因子加权算法衍生出二元风险标签，确保了数据在机器学习任务中的适用性与丰富性。

特点

该数据集的核心特征体现在其多维度的变量架构与连续型评分体系。所有心理健康指标均采用0-100连续标度模拟真实心理测量场景，有效保留了行为数据的方差特性。特征组涵盖人口背景、数字活动强度与心理状态三大模块，其中风险标志变量通过数字依赖程度、情绪状态与认知功能的复合算法生成，精准反映了15-20%的高风险人群分布。这种设计既符合临床流行病学的研究共识，又为机器学习模型提供了充分的特征交互空间。

使用方法

研究者可通过克隆GitHub仓库快速部署完整的数据科学工作流。数据集以CSV格式提供，配套的Jupyter笔记本构建了端到端的分析管道，涵盖探索性数据分析、特征工程与多模型比较环节。用户可基于逻辑回归、随机森林与XGBoost等算法开展心理健康风险预测，并通过可解释性工具解析特征贡献度。环境配置仅需安装标准依赖库即可复现全部实验，为数字行为与心理健康关联研究提供了标准化研究框架。

背景与挑战

背景概述

随着数字技术深度融入日常生活，数字生活方式与心理健康关联性研究成为行为科学前沿课题。该数据集由研究者Tarek Masryo于2023年构建，通过合成3500名参与者的多维度行为数据，系统考察屏幕使用时长、社交媒体接触等数字习惯对焦虑、抑郁、幸福感等心理指标的影响。其创新性地采用连续型评分体系模拟真实心理状态波动，为构建数字行为与心理健康风险预测模型提供了重要实证基础。

当前挑战

在数字心理健康研究领域，核心挑战在于量化数字行为与心理状态的复杂非线性关联。数据集构建面临多重技术难点：首先需通过合成数据技术平衡隐私保护与数据真实性，其次要设计多维度指标融合算法准确界定高风险人群。建模过程中还需解决连续型心理评分与离散风险标签的映射问题，以及高维行为特征间共线性对预测模型稳定性的影响。

常用场景

经典使用场景

在数字健康研究领域，该数据集为探索屏幕使用时间与心理健康关联提供了标准化分析框架。研究者通过整合人口统计学特征、数字行为指标与心理健康评分，构建机器学习模型来识别高风险群体。典型应用包括使用随机森林或XGBoost算法，基于每日屏幕使用时长、社交媒体活跃度及心理指标数据，预测个体出现焦虑或抑郁倾向的可能性。

实际应用

在公共卫生实践中，该数据集支撑了企业员工健康管理系统的开发。医疗机构通过分析数字行为模式，可提前识别具有心理风险特征的群体，并制定针对性干预策略。教育机构则利用其构建数字素养评估体系，通过监测学生的屏幕使用习惯与专注力变化，优化课程设计与心理健康服务资源配置。

衍生相关工作

基于该数据集的特征工程方法，衍生出多项数字健康领域的经典研究。例如通过SHAP解释性分析揭示手机解锁频率与焦虑得分的非线性关联，以及结合时序建模预测长期数字依赖风险的工作。这些研究进一步推动了行为心理学与计算社会科学的交叉融合，为制定数字健康政策提供了实证依据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集