five

Datafest School Dataset

收藏
github2024-10-09 更新2024-10-18 收录
下载链接:
https://github.com/George-Michael-Dagogo/Datafest-Datathon-2024
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由Faker库生成,用于模拟一所高级中学的数据。数据包括学生信息、班级资源、教学时间等,旨在反映尼日利亚教育环境的实际情况。数据集经过数据质量检查后存储在Azure Blob Storage和Postgres数据库中,并用于构建Power BI仪表板和预测模型。

This dataset was generated using the Faker library to simulate data for a senior high school. The data covers student information, classroom resources, teaching schedules and other relevant content, and is designed to reflect the actual conditions of the educational environment in Nigeria. After undergoing data quality checks, the dataset is stored in Azure Blob Storage and Postgres databases, and is used to build Power BI dashboards and predictive models.
创建时间:
2024-10-07
原始信息汇总

DATAFEST SCHOOL 数据集概述

数据集概述

该数据集使用Faker库生成了一所高级中学的数据,并通过数据质量检查后存储在Azure Blob存储和Aiven的Postgres数据库中。数据集包括学生、教师、家长、班级资源等多个方面的信息,旨在模拟真实世界的学校数据场景。

数据集架构

数据集包括以下主要表格:

class_resources_table

列名 数据类型 字段大小 描述 示例
Class_ID VARCHAR(20) 20 主键,每个班级的唯一标识符 SS1 Class A
Number_of_Students SMALLINT 2 bytes 班级中的学生人数 60
Number_of_Teachers SMALLINT 2 bytes 分配给班级的教师人数 82
Weekly_Teaching_Hours SMALLINT 2 bytes 每周的总教学小时数 40
Weekly_Library_Time SMALLINT 2 bytes 每周在图书馆的时间 5
Weekly_Computer_Training_Time SMALLINT 2 bytes 每周在计算机培训上的时间 3
Weekly_Lab_Hours SMALLINT 2 bytes 每周在实验室的时间 4
Chalkboard SMALLINT 2 bytes 黑板的数量或状况 2
Basic_Textbooks SMALLINT 2 bytes 基本教科书的数量或可用性 25
Chairs_Desks SMALLINT 2 bytes 椅子和桌子的数量或状况 60
Functional_Fans SMALLINT 2 bytes 教室中功能风扇的数量 3

student_table

列名 数据类型 字段大小 描述 示例
Student_ID VARCHAR(100) 100 主键,每个学生的唯一标识符 ccf3a17156dc4907ba6c34ab6712303a
Class_ID VARCHAR(20) 20 外键,引用class_resources_table SS3 Class F
First_Name TEXT 可变 学生的名字 "Okorie"
Family_Name TEXT 可变 学生的姓氏 "Dubem"
Gender TEXT 可变 学生的性别 "Male"
Date_of_Birth DATE 3 bytes 学生的出生日期 "2005-07-15"
State_of_Origin TEXT 可变 学生的出生州 "Lagos"
engagement_in_class TEXT 可变 学生在课堂上的参与程度 Unactive
health_condition TEXT 可变 学生的健康状况 "None"
Class_Spec TEXT 可变 学生所属的特定班级或流 "Science"

parent_table

列名 数据类型 字段大小 描述 示例
Student_ID VARCHAR(100) 100 主键和外键,引用student_table ccf3a17156dc4907ba6c34ab6712303a
Fathers_Name TEXT 可变 学生的父亲姓名 "Michael"
Mothers_Name TEXT 可变 学生的母亲姓名 "Silver"
Family_Name TEXT 可变 父母的姓氏 "Mbawike"
Father_Education TEXT 可变 父亲的教育水平 Tetiary
Mother_Education TEXT 可变 母亲的教育水平 Secondary
Father_Occupation TEXT 可变 父亲的职业 "Engineer"
Mother_Occupation TEXT 可变 母亲的职业 "Teacher"
Annual_Household_Income_NGN TEXT 可变 家庭年收入(尼日利亚奈拉) 400,000-600,000
Household_Size INTEGER 4 bytes 家庭人数 5
Involvement_in_Kids_Education TEXT 可变 父母在子女教育中的参与程度 Very Involved

extracurricular_activity

列名 数据类型 字段大小 描述 示例
Student_ID VARCHAR(100) 100 主键和外键,引用student_table ccf3a17156dc4907ba6c34ab6712303a
Extracurricular_Activity TEXT 可变 课外活动的名称或类型 "Chess Club"
Weekly_Hours INTEGER 4 bytes 每周在活动上花费的时间 6

student_performance

列名 数据类型 字段大小 描述 示例
Student_ID VARCHAR(100) 100 主键和外键,引用student_table ccf3a17156dc4907ba6c34ab6712303a
Mathematics INTEGER 4 bytes 学生的数学成绩 85
English_Language INTEGER 4 bytes 学生的英语成绩 78
Civic_Education INTEGER 4 bytes 学生的公民教育成绩 90
Economics INTEGER 4 bytes 学生的经济学成绩 82
CRS_Islam INTEGER 4 bytes 学生的基督教宗教研究或伊斯兰研究成绩 88
Physics FLOAT 4 bytes 学生的物理成绩 76.5
Chemistry FLOAT 4 bytes 学生的化学成绩 81.0
Biology FLOAT 4 bytes 学生的生物成绩 79.5
Geography FLOAT 4 bytes 学生的地理成绩 85.0
Computer_Science FLOAT 4 bytes 学生的计算机科学成绩 92.5
Government FLOAT 4 bytes 学生的政府成绩 88.0
Commerce FLOAT 4 bytes 学生的商业成绩 77.5
Literature FLOAT 4 bytes 学生的文学成绩 83.0
History FLOAT 4 bytes 学生的历史成绩 86.5
Accounting FLOAT 4 bytes 学生的会计成绩 80.0

attendance_table

列名 数据类型 字段大小 描述 示例
Student_ID VARCHAR(100) 100 主键和外键,引用student_table ccf3a17156dc4907ba6c34ab6712303a
Days_Attended INTEGER 4 bytes 学生出勤的天数 90
Days_Missed INTEGER 4 bytes 学生缺勤的天数 5
Absence_Reason TEXT 可变 学生缺勤的原因 "Illness"

ss3_student_survey

列名 数据类型 字段大小 描述 示例
Student_ID VARCHAR(100) 100 主键和外键,引用student_table ccf3a17156dc4907ba6c34ab6712303a
Reason_For_Performance TEXT 可变 学生对学业成绩的解释 "Regular study and parental support"
Access_To_Resources TEXT 可变 学生对教育资源的访问描述 "Good access to textbooks and internet"
Study_Hours_Per_Week INTEGER 4 bytes 每周学习的小时数 20
Health_Issues TEXT 可变 影响学习的健康问题描述 "None"
Teacher_Support INTEGER 4 bytes 教师支持的水平(可能是量表) 8
Parental_Support INTEGER 4 bytes 家长支持的水平(可能是量表) 9
Stress_Level TEXT 可变 学生的压力水平描述 "Moderate"
Peer_Influence TEXT 可变 同伴对学业成绩的影响描述 "Positive"
Additional_Tutoring TEXT 可变 额外辅导的信息 "Math tutor twice a week"
Use_Of_Study_Groups TEXT 可变 参与学习小组的信息 "Weekly science study group"
Exam_Anxiety TEXT 可变 学生的考试焦虑水平描述 "Low"
Jamb_Scores SMALLINT 2 bytes 学生的JAMB(联合入学和入学考试委员会)成绩 280
Num_Credit_Passes_WAEC SMALLINT 2 bytes WAEC(西非考试委员会)考试中的信用通过次数 7
Verdict Text 可变 根据Jamb和WAEC成绩的通过或失败 Pass

staff_table

列名 数据类型 字段大小 描述 示例
Staff_ID VARCHAR(100) 100 主键,每个员工的唯一标识符 bdd640fb06674ad19c80317fa3b1799d
Name TEXT 可变 员工的姓名 "Alice Johnson"
Gender TEXT 可变 员工的性别 "Female"
Position TEXT 可变 员工的职位或角色 "Teacher"
Monthly_Pay INTEGER 4 bytes 员工的月薪 150000
Years_of_Experience INTEGER 4 bytes 员工的工作经验年数 8
Education_Level TEXT 可变 员工获得的最高教育水平 "Masters"
Date_of_Hire TEXT 可变 员工的雇佣日期 "2015-09-01"
Full_time BOOLEAN 1 byte 员工是否全职(true)或兼职(false) true

teachers_table

列名 数据类型 字段大小 描述 示例
Teacher_ID VARCHAR(100) 100 主键,每个教师的唯一标识符 anf476539s674ad19c80317fa334g9f
Staff_ID VARCHAR(100) 100 外键,引用staff_table bdd640fb06674ad19c80317fa3b1799d
Name TEXT 可变 教师的姓名 "Alice Johnson"
Teacher_Type TEXT 可变 教师的类型或类别 "Senior Teacher"
Subject_specialization TEXT 可变 教师的学科专业领域 "Mathematics"

数据质量检查

数据集在存储前进行了多项数据质量检查,包括但不限于:

  • 检查所有列的空值
  • 确保主键和外键的唯一性和匹配性
  • 验证数值列的非负性和合理性
  • 检查日期格式的正确性
  • 确保分类列的一致性
搜集汇总
数据集介绍
main_image_url
构建方式
Datafest School Dataset的构建始于使用Faker库生成基础数据,但为了确保数据的真实性和文化相关性,团队进一步从多个来源抓取了真实的尼日利亚男性与女性姓名,并引入了尼日利亚的地理位置数据。此外,数据集还模拟了西非儿童可能面临的典型挑战,确保了数据的上下文准确性。数据经过严格的质量检查后,被存储在Azure的Blob Storage和Aiven的Postgres数据库中,并通过GitHub Actions实现了每三个月一次的自动备份和历史数据归档。
特点
Datafest School Dataset的显著特点在于其高度真实性和文化相关性。数据集不仅涵盖了学生的基本信息、家庭背景、课外活动和学术表现,还特别关注了尼日利亚的教育环境和文化背景。此外,数据集的结构设计合理,包含了多个相互关联的表格,如学生表、家长表、教师表等,便于多维度的数据分析和模型构建。
使用方法
Datafest School Dataset适用于多种教育研究和数据分析场景。用户可以通过提供的Streamlit应用进行数据录入和更新,确保数据的实时性和准确性。数据集的结构清晰,用户可以根据需求提取特定表格或字段进行分析。此外,数据集还提供了详细的数据字典和质量检查标准,帮助用户更好地理解和使用数据。
背景与挑战
背景概述
Datafest School Dataset是由George-Michael Dagogo等人创建的一个专注于高级中学教育的数据集。该数据集通过使用Faker库生成初始数据,并结合从多个来源收集的真实尼日利亚姓名和地理位置,以确保数据的现实性和文化相关性。数据集的核心研究问题在于评估学生通过或失败的可能性,并通过Power BI构建的仪表板进行分析。该数据集不仅为教育领域的研究提供了丰富的数据资源,还通过Streamlit应用实现了数据的实时更新和管理,极大地提升了数据的可操作性和实用性。
当前挑战
Datafest School Dataset在构建过程中面临多项挑战。首先,初始使用Faker库生成的数据未能完全捕捉到尼日利亚教育环境的细微差别,因此需要进一步增强数据的真实性和文化相关性。其次,数据质量检查过程中需确保各表中的数据一致性和合理性,如学生出勤记录的完整性、家庭收入范围的合理性等。此外,数据集的自动化更新和备份机制也需确保其稳定性和可靠性,以应对数据量增长和实时更新的需求。
常用场景
经典使用场景
Datafest School Dataset的经典使用场景主要集中在教育数据分析和学生表现预测上。通过该数据集,研究者和教育工作者可以深入分析学生的学术表现、出勤率、课外活动参与度以及家庭背景等因素对学业成绩的影响。例如,利用数据集中的学生成绩和出勤记录,可以构建预测模型,评估学生在未来考试中的表现,从而为学校提供有针对性的干预措施。
衍生相关工作
Datafest School Dataset的发布催生了一系列相关的经典工作。研究者利用该数据集进行了多项关于学生表现预测和教育资源优化的高影响力研究,发表在多个顶级学术期刊上。此外,该数据集还被用于开发和验证多种教育数据分析工具和平台,如学生表现预测系统、个性化学习推荐系统等。这些工作不仅推动了教育数据科学的发展,也为实际教育管理提供了有力的技术支持。
数据集最近研究
最新研究方向
在教育数据分析领域,Datafest School Dataset的最新研究方向主要集中在利用先进的数据分析技术来预测学生的学业表现和行为趋势。通过整合学生、家长、教师和课程资源的多维度数据,研究者们致力于开发更为精准的预测模型,以识别影响学生学业成功的关键因素。此外,该数据集还被用于探索如何通过数据驱动的决策支持系统来优化教育资源的分配,提升教学质量,并促进学生个性化学习路径的制定。这些研究不仅有助于提高教育管理的效率,还为教育政策的制定提供了科学依据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作