electricsheepafrica/africa-who-persistence-to-last-grade-of-primary
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-persistence-to-last-grade-of-primary
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在1990年至2017年间WHO GHO指标“Persistence to last grade of primary (% of cohort)”的国家级观察数据。数据来源于WHO Global Health Observatory OData API,并以Parquet文件形式重新打包。所有值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Persistence to last grade of primary (% of cohort)" (`SE_PRM_PRSL_ZS`) across African nations, spanning 1990–2017. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(GHO)的OData API,聚焦非洲地区小学教育完成率指标(SE_PRM_PRSL_ZS),即“持续就读至小学最后年级的学生比例(占同龄人百分比)”。数据经过系统化提取与重构,保留了原始API中的`NumericValue`浮点数值作为核心指标,并同步纳入了置信区间上下限(`value_low`、`value_high`)。所有观测值均转化为Parquet文件格式,确保存储高效与机器学习就绪性。数据集覆盖1990至2017年间42个非洲国家,共607条记录,每条记录按国家、年份、性别或居住地类型等维度进行分层组织,支持细致的分组分析。
使用方法
用户可通过Hugging Face的`datasets`库便捷加载该数据集,调用`load_dataset`函数后即可获得训练集格式的DataFrame。推荐使用`to_pandas()`方法将其转换为Pandas数据框,以便进行后续的分析与建模。在数据处理中,可依据`dim1`或`dim2`字段过滤特定维度,例如通过筛选以`_BTSX`结尾的`dim1`值获取全国层面的两性综合数据。时间序列分析可通过对特定国家(如肯尼亚)的`country_iso3`字段进行筛选并按年份排序实现。此外,用户也可直接操作原始Parquet文件,灵活应用于回归或分类等机器学习任务。
背景与挑战
背景概述
在全球教育公平与质量评估的研究框架下,小学教育完成率是衡量基础教育体系效能与社会发展水平的关键指标。由世界卫生组织(WHO)全球卫生观察站(GHO)发布、Electric Sheep Africa团队整合的“africa-who-persistence-to-last-grade-of-primary”数据集,聚焦于1990至2017年间42个非洲国家的小学持续就读至最后一年的人口比例。该数据集以标准化Parquet格式整理,包含性别、城乡等亚组划分,为机器学习和统计分析提供了高质量、可复用的结构化数据。其影响力在于填补了非洲区域教育进展量化研究的空白,支持政策制定者与研究者追踪千年发展目标与可持续发展目标中关于全民教育的实施成效,尤其凸显了非洲大陆在应对教育可及性与公平性挑战中的独特地位。
当前挑战
数据集所解决的领域问题在于,非洲地区长期面临小学辍学率高、区域数据碎片化及跨年代可比性不足的困境,通过整合WHO官方时间序列数据,为评估教育系统韧性与干预措施效果提供基准。构建过程中则需应对多重挑战:一是原始数据存在性别与行政区域等亚类分层的缺失值,需借助置信区间字段(value_low、value_high)谨慎推断;二是不同国家统计口径与数据采集年份的差异增加了归一化难度;三是小样本量(仅607行)与稀疏时间跨度(1990–2017)限制了深层时序模型的训练能力,需依赖特征工程或迁移学习缓解过拟合风险。
常用场景
经典使用场景
该数据集聚焦于非洲各国小学阶段持续就读至最后一学年的学生比例(% of cohort),是评估基础教育完成率的关键指标。在机器学习与教育发展研究领域,该数据常被用于构建分类与回归模型,以预测或解释不同国家及性别群体间的小学持续就读率。研究人员可依据年份、国家、性别等维度进行切片分析,探讨教育政策、经济状况或健康干预措施对基础教育完成度的潜在影响。
解决学术问题
该数据集的核心价值在于为跨国的教育公平与人力资本发展研究提供了标准化、机器可读的定量依据。学术界常利用它探讨非洲国家在基础教育阶段面临的辍学风险与性别差异,揭示社会经济因素与教育成果之间的关联。通过分析该指标的时间序列变化,研究者能够评估千年发展目标和可持续发展目标框架下教育普及政策的实施效果,从而为优化教育资源分配与干预策略提供实证支撑。
实际应用
在实际应用中,该数据集被国际组织、政府机构及非营利组织广泛用于教育监测与政策评估。例如,世界卫生组织与联合国教科文组织可借助此数据追踪非洲各国基础教育完成率的演变趋势,识别教育薄弱环节,并制定针对性的提升计划。此外,数据科学家与公共卫生专家可将其与其他社会经济数据集(如健康、贫困指标)进行融合,构建预警系统,助力资源匮乏地区提前干预辍学风险。
数据集最近研究
最新研究方向
该数据集聚焦于非洲国家小学教育完成率的纵向追踪,是衡量基础教育系统效能与人力资本积累的核心指标。结合联合国可持续发展目标4(优质教育)及非洲大陆教育危机背景,该数据为研究性别差异、地区不平等与教育政策干预效果提供了关键证据。前沿方向包括:利用时空贝叶斯模型估算缺失数据以完善教育监测体系,结合经济指标分析辍学率与贫困陷阱的交互机制,以及通过机器学习方法预测教育成果的驱动因素。该数据集填补了非洲教育长期数据的结构化缺口,支撑着从跨国比较分析到干预项目效果评估的研究范式转型。
以上内容由遇见数据集搜集并总结生成



