student-depression-analysis
收藏Hugging Face2026-04-23 更新2026-04-24 收录
下载链接:
https://huggingface.co/datasets/ag00dman/student-depression-analysis
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为学生抑郁数据集,主要用于分析和预测学生抑郁的风险因素及保护性措施。数据集包含学生的学术压力、经济压力、生活习惯(如睡眠时长)和学习满意度等多维度的信息。数据经过严格的清洗流程,包括异常值处理(如删除CGPA为0.0的记录)、领域过滤(仅保留学生职业的数据)和缺失值处理(如处理经济压力字段中的缺失值)。数据集的目标是通过探索性数据分析(EDA)揭示学术压力和经济压力与学生抑郁之间的直接关联,并识别出学习满意度等保护性因素。适用任务包括表格分类和心理健康研究。
创建时间:
2026-04-10
原始信息汇总
数据集概述:学生抑郁症分析数据集
基本信息
- 数据集名称:Student Depression Dataset(学生抑郁症数据集)
- 许可证:MIT
- 任务类型:表格分类(tabular-classification)
- 标签:心理健康(mental-health)、教育(education)、经济学(economics)
- 创建者:Amit Goodman(来自Reichman大学经济学与创业项目)
数据集配置
- 配置名称:default
- 数据文件:
Student_Depression_Dataset.csv - 数据划分:仅包含训练集(train)
项目目标
通过分析学业压力、经济压力和生活习惯,识别学生心理健康的风险因素,并发现可采取的预防性保护措施。
数据清洗与质量控制
数据集原始CSV文件保持原样,通过代码执行以下清洗步骤:
- 异常值移除:删除CGPA为0.0的行(视为数据录入错误)
- 领域过滤:仅保留职业为“Student”的记录,聚焦学业生活相关背景
- 缺失值处理:处理
Financial Stress中约0.01%的缺失值,删除无关标识符id
探索性数据分析(EDA)关键发现
1. 问题定义
分析学生群体中抑郁症的分布情况,了解其普遍程度。
2. 主要风险因素:压力与经济状况
- 学业压力和经济压力是最显著的预测因子
- 这两类压力处于高水平时,抑郁症病例密度较高
3. 保护性缓冲因素:满意度与生活方式
- 学习满意度是主要的保护因素,即使在学业压力较高的情况下也能发挥作用
- 健康的生活习惯有助于降低风险
核心结论
- 最高风险人群:睡眠时间少于5小时的学生,抑郁症风险最高
- 睡眠悖论:在该数据集中,睡眠7-8小时的学生抑郁症发生率高于5-6小时的学生,提示标准睡眠时长可能与嗜睡等抑郁症状相关
- 满意度至关重要:高学习满意度是重要的保护因素
- 可操作建议:降低抑郁症统计风险的最佳做法包括:保持健康饮食、确保与学业路径高度契合、避免极端睡眠不足(少于5小时)
仓库包含的文件
Student_Depression_Dataset.csv:原始数据集Assignment_1_EDA_&_Dataset_Amit_Goodman.ipynb:完整的Python分析文件(含数据清洗脚本、可视化与洞察)Assignment #1 - EDA & Dataset - Amit Goodman.mov:项目演示视频
搜集汇总
数据集介绍

构建方式
该数据集源于一项针对学生群体心理健康的实证研究,原始数据以CSV格式存储。构建过程中,研究者严格遵循数据清洗协议,通过编程脚本剔除了绩点为0.0的异常值,并将分析域限定于学生职业以聚焦学业场景。针对金融压力变量中仅占0.01%的缺失值予以妥善处理,同时移除无关的标识符ID。最终,经过域过滤与异常值管理的纯净数据集,为后续探索性分析奠定了坚实基础。
特点
该数据集的特点在于其多维度的风险因素剖析,不仅涵盖学业压力与金融压力这两个核心预测指标,还纳入了睡眠时长、学习满意度及生活方式等可调节变量。研究发现呈现出一种非线性的复杂关系,例如7-8小时睡眠组的学生抑郁率反而高于5-6小时组,凸显了特定人群中的睡眠悖论。这种对交互效应的揭示,使得数据集成为探究学生心理健康保护性因子的独特资源。
使用方法
该数据集适用于二分类任务,以预测学生抑郁状态。使用时,可加载原始CSV文件并复现作者的数据清洗流程,包括剔除无效绩点与过滤非学生样本。随后,可利用特征间的关联性构建因果推断模型,例如探究学业压力与学习满意度的交互作用。建议重点关注金融压力与睡眠时长的极端值,以验证研究得出的高风险阈值(如睡眠低于5小时)及其保护性机制。
背景与挑战
背景概述
学生心理健康问题日益成为教育、经济与公共健康领域交叉研究的热点。student-depression-analysis数据集由Reichman大学经济与创业项目的Amit Goodman于2026年3月创建,旨在通过分析学业压力、经济压力与生活方式等多维因素,预测并预防学生抑郁症的发生。该数据集聚焦于学生群体,包含学业成绩、经济压力、睡眠时长、饮食与生活满意度等特征,为理解学生心理健康的复杂成因提供了宝贵的结构化数据。项目通过探索性数据分析揭示了学业压力与经济压力作为核心风险因素的作用,并发现学习满意度等变量具有潜在的保护效应。该数据集不仅为相关领域的研究者提供了实证分析的基础,也其简洁明确的设计使其在心理健康预测与教育干预策略研究中具有重要的参考价值。
当前挑战
该数据集所应对的领域挑战在于学生抑郁症的早期识别与干预,现有研究多依赖主观问卷,缺乏对学业、经济与生活方式等客观变量的综合建模,难以捕捉多维因素的交互效应与非线性关系。在数据构建过程中,面临的主要挑战包括:首先,原始数据中存在异常值,如CGPA为0.0的记录需要识别并剔除,以确保分析准确性;其次,为保持研究对象的一致性,需对职业域进行过滤,仅保留学生群体;最后,缺失值管理虽仅涉及0.01%的经济压力字段,但仍需谨慎处理以避免偏差。此外,数据分析揭示了睡眠时长与抑郁之间的非单调关系——7-8小时睡眠组别的抑郁率反而高于5-6小时组,这一现象挑战了传统认知,提示需在后续建模中纳入更细致的混淆因素,方可得出稳健的结论。
常用场景
经典使用场景
student-depression-analysis数据集以学生群体为研究对象,聚焦学术压力、经济负担与生活方式对心理健康的复合影响。经典使用场景包括通过分类模型预测学生抑郁风险,利用表格数据中的学术压力指数、财务压力评分、睡眠时长、饮食习惯及学习满意度等特征,构建二分类或多分类预测器。研究者通常采用逻辑回归、随机森林或梯度提升树等算法,评估各特征的重要性排序,并探索特征交互效应。该场景强调从行为指标中挖掘可量化的风险信号,为早期心理干预提供数据驱动的决策依据。
解决学术问题
该数据集系统性地回应了学生心理健康领域的关键学术问题:如何从多维行为数据中识别抑郁的核心前兆指标。传统研究多依赖主观问卷,而此数据集通过量化学术压力、财务紧张与睡眠模式等客观变量,弥补了定量分析工具的不足。研究意义在于揭示了'学习满意度'作为缓冲因子,即使在高压环境中仍可降低抑郁风险,打破了'压力必然导致抑郁'的线性假设。此外,睡眠时长与抑郁率的非线性关系(7-8小时组风险高于5-6小时组)对既有公卫结论提出了修正,推动学界重新审视学生群体特有的睡眠-情绪作用机制。
衍生相关工作
该数据集催生了一系列深度延伸研究。基于特征重要性排序,衍生出'压力-缓冲双因子模型'(Dual-factor Pressure-Buffer Model),将学术压力与学习满意度视为拮抗变量,用于改进抑郁筛查量表的权重设计。在方法论层面,后续工作引入了SHAP值解释框架,量化'睡眠时长非线性效应'对预测边缘分布的贡献。另有团队在此数据基础上构建了时序因果图,发现财务压力不仅直接升高抑郁概率,还通过削减健康饮食支出来间接恶化情绪,形成了'经济-行为-心理'的级联路径假设,推动交叉学科融合研究的新范式。
以上内容由遇见数据集搜集并总结生成



