student-mat.csv, student-por.csv

github2023-12-24 更新2024-05-31 收录

下载链接：

https://github.com/mahmoudadelaziz/ML-predicting-grades

下载链接

链接失效反馈

官方服务：

资源简介：

这两个数据集用于预测学生的考试成绩，包含多种特征如学习时间、家庭大小和父母背景等。数据集来自UCI机器学习库，用于个人训练和教育目的。

These two datasets are utilized for predicting students' academic performance, encompassing various features such as study time, family size, and parental background. The datasets are sourced from the UCI Machine Learning Repository and are intended for personal training and educational purposes.

创建时间：

2023-12-24

原始信息汇总

数据集概述

数据集名称

student-mat.csv (数学课程)
student-por.csv (葡萄牙语课程)

数据集特征

school: 学生所在学校 (GP - Gabriel Pereira 或 MS - Mousinho da Silveira)
sex: 学生性别 (F - 女性或 M - 男性)
age: 学生年龄 (数值: 15至22)
address: 学生家庭地址类型 (U - 城市或 R - 农村)
famsize: 家庭大小 (LE3 - 小于等于3 或 GT3 - 大于3)
Pstatus: 父母同居状态 (T - 同居或 A - 分居)
Medu: 母亲教育程度 (数值: 0 - 无, 1 - 初等教育至4 - 高等教育)
Fedu: 父亲教育程度 (数值: 0 - 无, 1 - 初等教育至4 - 高等教育)
Mjob: 母亲职业 (名义: 教师, 医疗, 服务, 在家, 其他)
Fjob: 父亲职业 (名义: 教师, 医疗, 服务, 在家, 其他)

课程成绩（目标变量）

G1: 第一学期成绩 (数值: 0至20)
G2: 第二学期成绩 (数值: 0至20)
G3: 最终成绩 (数值: 0至20, 输出目标)

数据集来源

数据集来自UCI机器学习库。

数据集用途

用于训练线性回归模型，预测学生的考试成绩。

搜集汇总

数据集介绍

构建方式

该数据集来源于UCI机器学习库，包含两个独立的CSV文件：student-mat.csv和student-por.csv，分别记录了学生在数学和葡萄牙语课程中的表现。数据通过调查问卷的形式收集，涵盖了学生的个人背景、家庭环境以及学业成绩等多维度信息。每个数据集均包含32个特征变量，目标变量为学生在三个不同阶段的成绩（G1、G2、G3）。数据的构建过程注重多样性和代表性，确保能够反映不同背景学生的学业表现。

特点

该数据集的特点在于其多维度的特征变量，涵盖了学生的性别、年龄、家庭住址、家庭规模、父母教育水平及职业等丰富信息。目标变量G1、G2、G3分别代表学生在第一学期、第二学期和期末的成绩，提供了连续的学习表现记录。数据集的结构清晰，特征变量均为数值型或类别型，便于直接用于机器学习模型的训练与评估。此外，数据集的样本量适中，适合用于教育领域的预测分析研究。

使用方法

该数据集的使用方法较为灵活，适用于多种机器学习任务，如回归分析、分类预测等。用户可通过Jupyter Notebook加载数据集，利用Python中的`pandas`库进行数据预处理，并通过`scikit-learn`库构建线性回归模型，预测学生的期末成绩。数据集中提供的特征变量可用于特征工程，进一步提升模型的预测性能。此外，用户还可结合`matplotlib`和`seaborn`等可视化工具，对数据进行探索性分析，挖掘潜在的模式与规律。

背景与挑战

背景概述

学生成绩预测数据集（student-mat.csv, student-por.csv）由UCI机器学习仓库提供，旨在通过学生的背景信息预测其数学和葡萄牙语课程的成绩。该数据集创建于教育数据挖掘领域兴起的背景下，主要研究人员或机构未明确提及，但其核心研究问题聚焦于如何利用学生的家庭背景、学校环境等多元特征，预测其学业表现。该数据集在教育数据分析和机器学习领域具有重要影响力，为研究者提供了探索学生成绩与多种社会因素之间关系的宝贵资源。

当前挑战

该数据集面临的挑战主要体现在两个方面。首先，在解决领域问题上，学生成绩预测涉及复杂的多因素交互，如何从高维特征中提取有效信息并建立准确的预测模型是一个关键挑战。其次，在数据构建过程中，数据收集的完整性和准确性可能受到学生隐私保护、数据标注不一致等因素的影响，这为模型的训练和评估带来了潜在的不确定性。此外，不同学校、地区之间的教育环境差异也可能导致模型的泛化能力受限。

常用场景

经典使用场景

在教育和心理学研究中，student-mat.csv和student-por.csv数据集被广泛用于探索学生成绩与多种社会、家庭及个人因素之间的关系。通过线性回归等统计方法，研究者能够分析不同变量对学生成绩的影响，从而为教育政策的制定提供数据支持。

衍生相关工作

基于该数据集，许多经典研究工作得以展开，例如使用机器学习算法预测学生成绩、分析不同教育干预措施的效果，以及探索性别、家庭背景等因素对学业成绩的长期影响。这些研究不仅丰富了教育数据分析的方法论，也为教育政策的制定提供了重要参考。

数据集最近研究