Datafest School Dataset
收藏github2024-10-09 更新2024-10-18 收录
下载链接:
https://github.com/George-Michael-Dagogo/Datafest-Datathon-2024
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由Faker库生成,用于模拟一所高级中学的数据。数据包括学生信息、班级资源、教学时间等,旨在反映尼日利亚教育环境的实际情况。数据集经过数据质量检查后存储在Azure Blob Storage和Postgres数据库中,并用于构建Power BI仪表板和预测模型。
This dataset was generated using the Faker library to simulate data for a senior high school. The data covers student information, classroom resources, teaching schedules and other relevant content, and is designed to reflect the actual conditions of the educational environment in Nigeria. After undergoing data quality checks, the dataset is stored in Azure Blob Storage and Postgres databases, and is used to build Power BI dashboards and predictive models.
创建时间:
2024-10-07
原始信息汇总
DATAFEST SCHOOL 数据集概述
数据集概述
该数据集使用Faker库生成了一所高级中学的数据,并通过数据质量检查后存储在Azure Blob存储和Aiven的Postgres数据库中。数据集包括学生、教师、家长、班级资源等多个方面的信息,旨在模拟真实世界的学校数据场景。
数据集架构
数据集包括以下主要表格:
class_resources_table
| 列名 | 数据类型 | 字段大小 | 描述 | 示例 |
|---|---|---|---|---|
| Class_ID | VARCHAR(20) | 20 | 主键,每个班级的唯一标识符 | SS1 Class A |
| Number_of_Students | SMALLINT | 2 bytes | 班级中的学生人数 | 60 |
| Number_of_Teachers | SMALLINT | 2 bytes | 分配给班级的教师人数 | 82 |
| Weekly_Teaching_Hours | SMALLINT | 2 bytes | 每周的总教学小时数 | 40 |
| Weekly_Library_Time | SMALLINT | 2 bytes | 每周在图书馆的时间 | 5 |
| Weekly_Computer_Training_Time | SMALLINT | 2 bytes | 每周在计算机培训上的时间 | 3 |
| Weekly_Lab_Hours | SMALLINT | 2 bytes | 每周在实验室的时间 | 4 |
| Chalkboard | SMALLINT | 2 bytes | 黑板的数量或状况 | 2 |
| Basic_Textbooks | SMALLINT | 2 bytes | 基本教科书的数量或可用性 | 25 |
| Chairs_Desks | SMALLINT | 2 bytes | 椅子和桌子的数量或状况 | 60 |
| Functional_Fans | SMALLINT | 2 bytes | 教室中功能风扇的数量 | 3 |
student_table
| 列名 | 数据类型 | 字段大小 | 描述 | 示例 |
|---|---|---|---|---|
| Student_ID | VARCHAR(100) | 100 | 主键,每个学生的唯一标识符 | ccf3a17156dc4907ba6c34ab6712303a |
| Class_ID | VARCHAR(20) | 20 | 外键,引用class_resources_table | SS3 Class F |
| First_Name | TEXT | 可变 | 学生的名字 | "Okorie" |
| Family_Name | TEXT | 可变 | 学生的姓氏 | "Dubem" |
| Gender | TEXT | 可变 | 学生的性别 | "Male" |
| Date_of_Birth | DATE | 3 bytes | 学生的出生日期 | "2005-07-15" |
| State_of_Origin | TEXT | 可变 | 学生的出生州 | "Lagos" |
| engagement_in_class | TEXT | 可变 | 学生在课堂上的参与程度 | Unactive |
| health_condition | TEXT | 可变 | 学生的健康状况 | "None" |
| Class_Spec | TEXT | 可变 | 学生所属的特定班级或流 | "Science" |
parent_table
| 列名 | 数据类型 | 字段大小 | 描述 | 示例 |
|---|---|---|---|---|
| Student_ID | VARCHAR(100) | 100 | 主键和外键,引用student_table | ccf3a17156dc4907ba6c34ab6712303a |
| Fathers_Name | TEXT | 可变 | 学生的父亲姓名 | "Michael" |
| Mothers_Name | TEXT | 可变 | 学生的母亲姓名 | "Silver" |
| Family_Name | TEXT | 可变 | 父母的姓氏 | "Mbawike" |
| Father_Education | TEXT | 可变 | 父亲的教育水平 | Tetiary |
| Mother_Education | TEXT | 可变 | 母亲的教育水平 | Secondary |
| Father_Occupation | TEXT | 可变 | 父亲的职业 | "Engineer" |
| Mother_Occupation | TEXT | 可变 | 母亲的职业 | "Teacher" |
| Annual_Household_Income_NGN | TEXT | 可变 | 家庭年收入(尼日利亚奈拉) | 400,000-600,000 |
| Household_Size | INTEGER | 4 bytes | 家庭人数 | 5 |
| Involvement_in_Kids_Education | TEXT | 可变 | 父母在子女教育中的参与程度 | Very Involved |
extracurricular_activity
| 列名 | 数据类型 | 字段大小 | 描述 | 示例 |
|---|---|---|---|---|
| Student_ID | VARCHAR(100) | 100 | 主键和外键,引用student_table | ccf3a17156dc4907ba6c34ab6712303a |
| Extracurricular_Activity | TEXT | 可变 | 课外活动的名称或类型 | "Chess Club" |
| Weekly_Hours | INTEGER | 4 bytes | 每周在活动上花费的时间 | 6 |
student_performance
| 列名 | 数据类型 | 字段大小 | 描述 | 示例 |
|---|---|---|---|---|
| Student_ID | VARCHAR(100) | 100 | 主键和外键,引用student_table | ccf3a17156dc4907ba6c34ab6712303a |
| Mathematics | INTEGER | 4 bytes | 学生的数学成绩 | 85 |
| English_Language | INTEGER | 4 bytes | 学生的英语成绩 | 78 |
| Civic_Education | INTEGER | 4 bytes | 学生的公民教育成绩 | 90 |
| Economics | INTEGER | 4 bytes | 学生的经济学成绩 | 82 |
| CRS_Islam | INTEGER | 4 bytes | 学生的基督教宗教研究或伊斯兰研究成绩 | 88 |
| Physics | FLOAT | 4 bytes | 学生的物理成绩 | 76.5 |
| Chemistry | FLOAT | 4 bytes | 学生的化学成绩 | 81.0 |
| Biology | FLOAT | 4 bytes | 学生的生物成绩 | 79.5 |
| Geography | FLOAT | 4 bytes | 学生的地理成绩 | 85.0 |
| Computer_Science | FLOAT | 4 bytes | 学生的计算机科学成绩 | 92.5 |
| Government | FLOAT | 4 bytes | 学生的政府成绩 | 88.0 |
| Commerce | FLOAT | 4 bytes | 学生的商业成绩 | 77.5 |
| Literature | FLOAT | 4 bytes | 学生的文学成绩 | 83.0 |
| History | FLOAT | 4 bytes | 学生的历史成绩 | 86.5 |
| Accounting | FLOAT | 4 bytes | 学生的会计成绩 | 80.0 |
attendance_table
| 列名 | 数据类型 | 字段大小 | 描述 | 示例 |
|---|---|---|---|---|
| Student_ID | VARCHAR(100) | 100 | 主键和外键,引用student_table | ccf3a17156dc4907ba6c34ab6712303a |
| Days_Attended | INTEGER | 4 bytes | 学生出勤的天数 | 90 |
| Days_Missed | INTEGER | 4 bytes | 学生缺勤的天数 | 5 |
| Absence_Reason | TEXT | 可变 | 学生缺勤的原因 | "Illness" |
ss3_student_survey
| 列名 | 数据类型 | 字段大小 | 描述 | 示例 |
|---|---|---|---|---|
| Student_ID | VARCHAR(100) | 100 | 主键和外键,引用student_table | ccf3a17156dc4907ba6c34ab6712303a |
| Reason_For_Performance | TEXT | 可变 | 学生对学业成绩的解释 | "Regular study and parental support" |
| Access_To_Resources | TEXT | 可变 | 学生对教育资源的访问描述 | "Good access to textbooks and internet" |
| Study_Hours_Per_Week | INTEGER | 4 bytes | 每周学习的小时数 | 20 |
| Health_Issues | TEXT | 可变 | 影响学习的健康问题描述 | "None" |
| Teacher_Support | INTEGER | 4 bytes | 教师支持的水平(可能是量表) | 8 |
| Parental_Support | INTEGER | 4 bytes | 家长支持的水平(可能是量表) | 9 |
| Stress_Level | TEXT | 可变 | 学生的压力水平描述 | "Moderate" |
| Peer_Influence | TEXT | 可变 | 同伴对学业成绩的影响描述 | "Positive" |
| Additional_Tutoring | TEXT | 可变 | 额外辅导的信息 | "Math tutor twice a week" |
| Use_Of_Study_Groups | TEXT | 可变 | 参与学习小组的信息 | "Weekly science study group" |
| Exam_Anxiety | TEXT | 可变 | 学生的考试焦虑水平描述 | "Low" |
| Jamb_Scores | SMALLINT | 2 bytes | 学生的JAMB(联合入学和入学考试委员会)成绩 | 280 |
| Num_Credit_Passes_WAEC | SMALLINT | 2 bytes | WAEC(西非考试委员会)考试中的信用通过次数 | 7 |
| Verdict | Text | 可变 | 根据Jamb和WAEC成绩的通过或失败 | Pass |
staff_table
| 列名 | 数据类型 | 字段大小 | 描述 | 示例 |
|---|---|---|---|---|
| Staff_ID | VARCHAR(100) | 100 | 主键,每个员工的唯一标识符 | bdd640fb06674ad19c80317fa3b1799d |
| Name | TEXT | 可变 | 员工的姓名 | "Alice Johnson" |
| Gender | TEXT | 可变 | 员工的性别 | "Female" |
| Position | TEXT | 可变 | 员工的职位或角色 | "Teacher" |
| Monthly_Pay | INTEGER | 4 bytes | 员工的月薪 | 150000 |
| Years_of_Experience | INTEGER | 4 bytes | 员工的工作经验年数 | 8 |
| Education_Level | TEXT | 可变 | 员工获得的最高教育水平 | "Masters" |
| Date_of_Hire | TEXT | 可变 | 员工的雇佣日期 | "2015-09-01" |
| Full_time | BOOLEAN | 1 byte | 员工是否全职(true)或兼职(false) | true |
teachers_table
| 列名 | 数据类型 | 字段大小 | 描述 | 示例 |
|---|---|---|---|---|
| Teacher_ID | VARCHAR(100) | 100 | 主键,每个教师的唯一标识符 | anf476539s674ad19c80317fa334g9f |
| Staff_ID | VARCHAR(100) | 100 | 外键,引用staff_table | bdd640fb06674ad19c80317fa3b1799d |
| Name | TEXT | 可变 | 教师的姓名 | "Alice Johnson" |
| Teacher_Type | TEXT | 可变 | 教师的类型或类别 | "Senior Teacher" |
| Subject_specialization | TEXT | 可变 | 教师的学科专业领域 | "Mathematics" |
数据质量检查
数据集在存储前进行了多项数据质量检查,包括但不限于:
- 检查所有列的空值
- 确保主键和外键的唯一性和匹配性
- 验证数值列的非负性和合理性
- 检查日期格式的正确性
- 确保分类列的一致性
搜集汇总
数据集介绍

构建方式
Datafest School Dataset的构建始于使用Faker库生成基础数据,但为了确保数据的真实性和文化相关性,团队进一步从多个来源抓取了真实的尼日利亚男性与女性姓名,并引入了尼日利亚的地理位置数据。此外,数据集还模拟了西非儿童可能面临的典型挑战,确保了数据的上下文准确性。数据经过严格的质量检查后,被存储在Azure的Blob Storage和Aiven的Postgres数据库中,并通过GitHub Actions实现了每三个月一次的自动备份和历史数据归档。
特点
Datafest School Dataset的显著特点在于其高度真实性和文化相关性。数据集不仅涵盖了学生的基本信息、家庭背景、课外活动和学术表现,还特别关注了尼日利亚的教育环境和文化背景。此外,数据集的结构设计合理,包含了多个相互关联的表格,如学生表、家长表、教师表等,便于多维度的数据分析和模型构建。
使用方法
Datafest School Dataset适用于多种教育研究和数据分析场景。用户可以通过提供的Streamlit应用进行数据录入和更新,确保数据的实时性和准确性。数据集的结构清晰,用户可以根据需求提取特定表格或字段进行分析。此外,数据集还提供了详细的数据字典和质量检查标准,帮助用户更好地理解和使用数据。
背景与挑战
背景概述
Datafest School Dataset是由George-Michael Dagogo等人创建的一个专注于高级中学教育的数据集。该数据集通过使用Faker库生成初始数据,并结合从多个来源收集的真实尼日利亚姓名和地理位置,以确保数据的现实性和文化相关性。数据集的核心研究问题在于评估学生通过或失败的可能性,并通过Power BI构建的仪表板进行分析。该数据集不仅为教育领域的研究提供了丰富的数据资源,还通过Streamlit应用实现了数据的实时更新和管理,极大地提升了数据的可操作性和实用性。
当前挑战
Datafest School Dataset在构建过程中面临多项挑战。首先,初始使用Faker库生成的数据未能完全捕捉到尼日利亚教育环境的细微差别,因此需要进一步增强数据的真实性和文化相关性。其次,数据质量检查过程中需确保各表中的数据一致性和合理性,如学生出勤记录的完整性、家庭收入范围的合理性等。此外,数据集的自动化更新和备份机制也需确保其稳定性和可靠性,以应对数据量增长和实时更新的需求。
常用场景
经典使用场景
Datafest School Dataset的经典使用场景主要集中在教育数据分析和学生表现预测上。通过该数据集,研究者和教育工作者可以深入分析学生的学术表现、出勤率、课外活动参与度以及家庭背景等因素对学业成绩的影响。例如,利用数据集中的学生成绩和出勤记录,可以构建预测模型,评估学生在未来考试中的表现,从而为学校提供有针对性的干预措施。
衍生相关工作
Datafest School Dataset的发布催生了一系列相关的经典工作。研究者利用该数据集进行了多项关于学生表现预测和教育资源优化的高影响力研究,发表在多个顶级学术期刊上。此外,该数据集还被用于开发和验证多种教育数据分析工具和平台,如学生表现预测系统、个性化学习推荐系统等。这些工作不仅推动了教育数据科学的发展,也为实际教育管理提供了有力的技术支持。
数据集最近研究
最新研究方向
在教育数据分析领域,Datafest School Dataset的最新研究方向主要集中在利用先进的数据分析技术来预测学生的学业表现和行为趋势。通过整合学生、家长、教师和课程资源的多维度数据,研究者们致力于开发更为精准的预测模型,以识别影响学生学业成功的关键因素。此外,该数据集还被用于探索如何通过数据驱动的决策支持系统来优化教育资源的分配,提升教学质量,并促进学生个性化学习路径的制定。这些研究不仅有助于提高教育管理的效率,还为教育政策的制定提供了科学依据。
以上内容由遇见数据集搜集并总结生成



