学生风险检测数据集

Name: 学生风险检测数据集
Creator: 加州州立大学富勒顿分校
Published: 2024-12-13 01:33:06
License: 暂无描述

arXiv2024-12-13 更新2024-12-25 收录

下载链接：

http://arxiv.org/abs/2412.09483v1

下载链接

链接失效反馈

官方服务：

资源简介：

学生风险检测数据集是由加州州立大学富勒顿分校创建的，用于识别高风险学生的数据集。该数据集包含119名学生的31个变量，涵盖了学生的参与度、人口统计和成绩数据。数据集的创建过程包括数据收集、匿名化处理和特征选择，旨在通过机器学习模型预测学生是否处于高风险状态。该数据集的应用领域主要集中在高等教育中的学生保留率和辍学率问题，旨在通过早期干预提高学生的学术成功率。

The Student Risk Detection Dataset was developed by California State University, Fullerton, for identifying high-risk students. It contains 31 variables from 119 students, covering student engagement metrics, demographic information, and academic performance data. The dataset construction workflow includes data collection, anonymization processing, and feature selection, with the goal of predicting whether a student is at high risk via machine learning models. Its main application areas focus on student retention and dropout rate issues in higher education, aiming to improve students' academic success through early intervention.

提供机构：

加州州立大学富勒顿分校

创建时间：

2024-12-13

搜集汇总

数据集介绍

构建方式

学生风险检测数据集的构建基于加州州立大学富勒顿分校（CSUF）的Canvas平台和学校仪表板，涵盖了2023年秋季和2024年春季的数据。数据收集过程中，研究人员通过匿名化处理保护学生隐私，确保个人身份信息如学生ID和姓名被移除。数据集包含31个变量，涉及119名学生，其中21名被标记为高风险学生，98名为非高风险学生。高风险学生的定义基于其当前课程成绩为‘D’或更低，并且曾重修该课程。数据预处理包括处理缺失值、特征选择以及目标变量的定义，最终通过机器学习模型进行预测分析。

特点

该数据集的特点在于其多维度的数据来源，涵盖了学生的参与度、人口统计信息和学业表现。参与度数据包括学生在Canvas平台上的页面浏览和互动情况，人口统计信息包括学生的入学状态和代际背景，而学业表现则通过课程成绩和GPA等指标衡量。数据集还通过特征选择技术筛选出与目标变量相关性最高的10个特征，如当前成绩、作业提交情况、GPA等，确保了模型的预测准确性。此外，数据集采用了SMOTE和ADASYN等采样技术，解决了数据不平衡问题，进一步提升了模型的泛化能力。

使用方法

该数据集的使用方法主要围绕机器学习模型的训练与验证展开。研究人员首先对数据进行预处理，包括目标变量的定义、缺失值的处理以及特征选择。随后，采用多种机器学习模型（如支持向量机、朴素贝叶斯、K近邻、决策树、逻辑回归和随机森林）进行训练，并通过训练集-测试集划分和K折交叉验证技术评估模型性能。模型预测的目标是识别高风险学生，并确定学期中哪些阶段学生的表现最为脆弱。最终，研究人员通过准确率、精确率、召回率、F1分数和ROC曲线等指标评估模型的表现，选择最优模型用于实际应用。

背景与挑战

背景概述

学生风险检测数据集由加州州立大学富勒顿分校的计算机科学和电气与计算机工程系的研究团队于2023年秋季创建，旨在通过机器学习技术识别高风险学生。该数据集结合了学生的参与度、人口统计信息和学业表现数据，主要研究问题是如何通过早期干预降低高等教育中的学生辍学率，并提升学生的学业成功率。该研究通过Canvas平台和学校的数据仪表板收集数据，并采用了多种机器学习模型进行预测分析，最终发现朴素贝叶斯模型在预测高风险学生方面表现最佳。这一研究为教育领域提供了新的工具，帮助教师及时识别并支持高风险学生，从而提升整体教育质量。

当前挑战

学生风险检测数据集在构建和应用过程中面临多重挑战。首先，数据集中存在混合数据类型，包括数值型、类别型和时间序列数据，这增加了数据预处理和特征选择的复杂性。其次，数据集中高风险学生与低风险学生的样本分布不均衡，导致模型训练时容易出现偏差，研究者采用了SMOTE和ADASYN等过采样技术来解决这一问题。此外，数据隐私保护也是一个重要挑战，研究者通过匿名化和加密技术确保学生个人信息的安全。最后，模型的泛化能力仍需进一步验证，尤其是在不同学期和不同课程中的应用效果，以确保其在实际教育环境中的可靠性和有效性。

常用场景

经典使用场景

学生风险检测数据集在高等教育领域中被广泛用于识别和预测可能面临学业失败或辍学风险的学生。通过结合学生的参与度、人口统计信息和学业表现数据，该数据集为教育机构提供了一个强有力的工具，帮助他们在学期早期识别出高风险学生，从而及时采取干预措施。这一数据集的使用场景主要集中在大学和学院的学术支持系统中，特别是在计算机科学和工程等学科的课程中，帮助教师更好地理解学生的学业进展并提供个性化支持。

解决学术问题

该数据集通过引入机器学习模型，解决了传统方法在识别高风险学生时的局限性。传统方法通常依赖于学生的成绩和出勤记录，而这些指标往往无法全面反映学生的学业状况。通过结合行为数据和背景信息，该数据集能够更准确地预测学生的学业风险，从而帮助教育机构制定更有效的干预策略。这一研究不仅提高了学生保留率，还为教育政策制定者提供了数据支持，推动了教育公平和学术成功的实现。

衍生相关工作

学生风险检测数据集衍生了许多相关研究，特别是在机器学习和教育技术领域。例如，基于该数据集的研究开发了多种预测模型，如支持向量机、朴素贝叶斯和随机森林等，这些模型在识别高风险学生方面表现出色。此外，该数据集还推动了合成少数类过采样技术（SMOTE）和自适应合成采样（ADASYN）等数据平衡方法的应用，进一步提高了预测模型的准确性。这些研究不仅扩展了数据集的应用范围，还为教育领域的机器学习研究提供了新的方向和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集