student-performance-analysis
收藏Hugging Face2026-04-09 更新2026-04-10 收录
下载链接:
https://huggingface.co/datasets/romi2001/student-performance-analysis
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为“学生表现因素”,旨在预测哪些生活方式和学术因素最影响学生的期末考试成绩。数据集来源于Kaggle,包含6,607行和20个特征。目标变量为Exam_Score(期末考试成绩,范围0-100)。数值特征包括Hours_Studied(学习时间)、Attendance(出勤率)、Sleep_Hours(睡眠时间)、Previous_Scores(先前成绩)、Tutoring_Sessions(辅导课程次数)、Physical_Activity(体育活动时间)和Exam_Score。分类特征包括Gender(性别)、Parental_Involvement(家长参与度)、Access_to_Resources(资源获取)、Extracurricular_Activities(课外活动)、Motivation_Level(动机水平)、Internet_Access(网络访问)、Family_Income(家庭收入)、School_Type(学校类型)、Peer_Influence(同伴影响)和Learning_Disabilities(学习障碍)。数据集经过清洗,删除了三个分类列(Teacher_Quality、Parental_Education_Level和Distance_from_Home),并纠正了异常值。分析显示,出勤率和学习时间是预测考试成绩的最强因素,而动机、家长参与度和性别等因素影响较小。
创建时间:
2026-04-08
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称: Student Performance Factors — EDA Project
- 来源平台: Kaggle
- 原始作者: lainguyn123
- 数据集地址: https://www.kaggle.com/datasets/lainguyn123/student-performance-factors
- 数据规模: 6,607 行 × 20 个特征
目标与用途
该数据集旨在探究影响学生期末考试成绩的生活方式与学术因素,以帮助学生、教育者和家长做出更好决策,改善学业成果。
数据特征
- 目标变量:
Exam_Score— 期末考试成绩(0–100分) - 数值型特征:
Hours_Studied,Attendance,Sleep_Hours,Previous_Scores,Tutoring_Sessions,Physical_Activity,Exam_Score - 分类型特征:
Gender,Parental_Involvement,Access_to_Resources,Extracurricular_Activities,Motivation_Level,Internet_Access,Family_Income,School_Type,Peer_Influence,Learning_Disabilities
数据预处理
- 列删除: 删除了三个存在缺失值且与分析目标不符的分类列:
Teacher_Quality、Parental_Education_Level和Distance_from_Home。 - 缺失值: 删除上述三列后,数据集中无缺失值。
- 重复值: 数据集中未发现重复条目。
- 异常值修正: 将一名学生超出有效范围(0–100)的
Exam_Score值 101 修正为 100。
探索性数据分析 (EDA) 关键发现
描述性统计
- 平均学生画像:
- 每周学习时长:20 小时
- 出勤率:80%
- 睡眠时长:7 小时
- 先前成绩:75 分
- 辅导课程次数:1 次
- 每周体育活动时长:3 小时
- 平均考试成绩:67 分
特征相关性
- 出勤率 (
Attendance) 和 学习时长 (Hours_Studied) 与考试成绩 (Exam_Score) 呈最强的正相关关系。 - 睡眠时长 (
Sleep_Hours) 与考试成绩呈微弱的负相关关系。
研究问题与结论
- 学习动机是否影响考试成绩? 否。不同动机水平(低、中、高)学生的考试成绩中位数均约为67分。
- 家长参与是否影响考试成绩? 影响极小。从低到高的家长参与度,成绩中位数仅上升约1分。
- 体育活动是否影响学业表现? 影响轻微。活动时长与成绩存在微弱的正相关,但并非高分保证。
- 教育资源获取是否重要? 是,作为一种助推因素。资源获取程度高的学生,在获得更高分数上略有优势。
- 性别是否影响考试成绩? 否。男性和女性的平均成绩完全相同(67分)。
核心洞察
- 出勤率和学习时长是预测考试成绩的两个最强因素。
- 学习动机、家长参与、性别和体育活动对最终成绩的影响微乎其微。
- 教育资源的获取能带来微小但确实的优势,尤其有助于获得更高分数。
- 异常值具有意义,许多高分或低分源于个体学习风格差异,而非数据错误。
- 考试成绩主要受两个行为因素驱动:学习时长和课堂出勤的持续性。动机、性别和家长参与等因素的作用远小于通常假设。
搜集汇总
数据集介绍

构建方式
在教育数据科学领域,学生表现分析数据集通过系统化的数据清洗与预处理流程构建而成。该数据集源自Kaggle平台,原始数据包含20个特征与6607条学生记录。构建过程中,研究者移除了三个存在缺失值且与数值分析目标不符的分类特征列,确保了数据集的纯净性。针对异常值,研究团队通过箱线图进行了全面识别,但基于保留真实学习行为多样性的考量,决定不予剔除,仅对一处超出合理范围的考试成绩进行了修正。这一构建方法旨在最大限度地保留数据所反映的真实世界复杂性,为探究学业成绩的多维影响因素提供了坚实的数据基础。
特点
本数据集的核心特点在于其多维度的特征构成与对异常值的审慎处理。它涵盖了学习时长、出勤率、睡眠时间、先前成绩、辅导课程参与度、体育活动量等七项数值型特征,以及性别、家庭收入、学校类型、学习动机等十三项分类特征,全面刻画了学生的学术与生活状态。尤为突出的是,数据集保留了所有被识别的异常值,这些数据点揭示了学习成效并非单一因素所能决定,例如极低学习时长却获得高分的案例,体现了快速学习者的存在。这种对数据真实多样性的尊重,使得分析结果能更深刻地反映教育过程中个体差异与复杂因果关系。
使用方法
在应用层面,该数据集主要用于教育数据挖掘与预测建模任务。研究者可将其作为监督学习的数据源,以‘Exam_Score’为目标变量,构建回归或分类模型,量化各类生活方式与学术因素对最终成绩的影响权重。数据集中提供的详尽探索性数据分析(EDA)结果,包括相关性热图、分布直方图及各类可视化图表,可直接作为特征工程与模型解释的参考。此外,数据集适用于检验关于教育公平、资源分配有效性及个性化学习路径设计的假设,为教育政策制定与教学干预措施提供基于实证的数据支持。
背景与挑战
背景概述
在教育数据科学领域,探究学生学业表现的影响因素一直是研究者关注的核心议题。student-performance-analysis数据集由Kaggle用户lainguyn123创建并发布,旨在通过量化分析揭示生活方式与学术因素对期末考试成绩的交互影响。该数据集涵盖了6607名学生的20个特征,包括学习时长、出勤率、睡眠时间、先前成绩等数值变量,以及性别、家庭收入、学习动机等分类变量。其核心研究问题聚焦于识别哪些因素最能预测学生的考试成绩,从而为教育者、家长及政策制定者提供实证依据,以优化教学干预策略并提升学业成果。
当前挑战
该数据集致力于解决学生成绩预测这一经典教育评估问题,其核心挑战在于如何从多维度、异质性的特征中准确捕捉影响学业表现的关键驱动因子。具体而言,构建过程中面临数据质量与一致性的挑战,例如原始数据存在缺失值、异常值(如考试成绩超出合理范围)以及部分分类特征(如教师质量、家庭教育水平)因与数值分析框架不兼容而被剔除,这可能导致潜在重要信息的丢失。此外,数据中存在的离群点虽被保留以反映个体学习风格的多样性,但也增加了模型区分噪声与真实信号的难度,对特征选择与因果推断提出了更高要求。
常用场景
经典使用场景
在教育数据科学领域,学生表现分析数据集为探究学业成就的影响机制提供了实证基础。该数据集最经典的使用场景在于构建预测模型,以识别影响学生期末考试成绩的关键因素。研究者通过回归分析、相关性检验及机器学习算法,系统评估学习时长、出勤率、睡眠时间等数值特征与学业表现的关联强度,从而揭示学术成功背后的行为模式。
解决学术问题
该数据集有效解决了教育研究中关于学业表现决定因素的长期争议。通过量化分析生活方式与学术特征的综合影响,它挑战了动机水平、家庭参与等传统观念的主导作用,实证表明出勤率与学习时长才是核心预测变量。这一发现推动了教育心理学从主观归因向客观行为指标的范式转变,为精准干预策略提供了数据驱动的理论依据。
衍生相关工作
基于该数据集衍生的经典研究包括多层次教育影响模型构建与异质性学习路径挖掘。学者们扩展了原始特征空间,引入时间序列数据追踪学习行为动态演变;另有研究结合因果推断方法,分离出勤率与学习时长的交互效应。这些工作共同深化了对教育生产函数的理解,催生了‘学习分析学’这一交叉学科分支的蓬勃发展。
以上内容由遇见数据集搜集并总结生成



