electricsheepafrica/africa-who-proportion-of-children-at-the-end-of-primary-achieving-at
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-proportion-of-children-at-the-end-of-primary-achieving-at
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2000-2017年间,世界卫生组织全球健康观察指标“小学毕业儿童数学最低熟练程度比例(%)”(SE_PRM_MATH)的国家级观测数据。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global健康观察OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Proportion of children at the end of primary achieving at least a minimum proficiency level in mathematics (%)" (`SE_PRM_MATH`) across African nations, spanning 2000–2017. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观测站(WHO GHO)的官方OData API,聚焦于非洲地区小学毕业阶段数学能力至少达到最低熟练水平的学生比例(指标代码SE_PRM_MATH)。原始数据经过系统性清洗与重构,以Parquet格式统一存储,所有数值均采用浮点精度的NumericValue字段,而非格式化展示字符串。同时,数据集保留了置信区间上下限(value_low, value_high)等辅助信息,确保统计严谨性。数据覆盖2000至2017年间33个非洲国家的201条观测记录,并依据WHO AFRO区域进行筛选。当指标按性别或年龄组等维度分层时,每个国家×年份×维度的唯一组合均生成独立行,可通过dim1/dim2字段进行细分筛选或聚合处理。
特点
本数据集以简洁而规范的表格结构呈现,包含indicator_code、country_iso3、who_region、year、value_numeric等核心字段,同时提供value_low与value_high构成的置信区间,便于概率建模与不确定性评估。其独特的子维度设计(如SEX维度下的SEX_BTSX、SEX_FMLE、SEX_MLE)允许研究者按不同分层粒度进行灵活分析,从而洞察性别、城乡等群体间的数学能力差异。数据量虽仅数百行,但时间跨度长达18年,覆盖西非、东非、中非和南部非洲多个国家,为区域教育成效的纵向比较与跨国评估提供了稀缺的统计基础。
使用方法
用户可通过HuggingFace Datasets库直接加载数据集,一行代码即可将其转换为Pandas DataFrame进行探索式分析。为进一步聚焦于总体水平,建议首先过滤出dim1字段以'_BTSX'结尾或dim1为空的行,以获取不分性别的国家整体观测值。若需开展时间序列分析,可针对特定国家代码(如KEN为肯尼亚)筛选并按年份排序。此外,借助value_low和value_high字段,可构建误差棒图或贝叶斯模型,量化估计的不确定性。数据加载示例与过滤逻辑已在官方README中清晰给出,便于快速复现与二次开发。
背景与挑战
背景概述
本数据集由世界卫生组织(WHO)全球卫生观察站(GHO)于2017年发布,经Electric Sheep Africa团队重新整理后以机器学习友好格式开放。其核心研究问题聚焦于非洲国家小学阶段毕业生在数学领域达到最低熟练水平的比例,旨在通过量化指标揭示基础教育质量在区域间的差异。数据集覆盖33个非洲国家2000至2017年的观测数据,包含基于性别的子维度分层,为教育政策评估、可持续发展目标监测及区域健康与社会发展交叉研究提供了珍贵的基础数据。作为首个系统化整合WHO非洲区域教育指标的数据资源,它在全球健康与教育交叉领域具有开拓性影响力,推动了数据驱动的非洲公共卫生与教育决策研究。
当前挑战
该数据集所解决的领域问题在于填补非洲基础教育质量指标的数据短缺,传统上该区域的教育评估因经济与基础设施限制而数据稀疏,无法支撑机器学习或纵向对比分析。构建过程中面临多重挑战:首先,WHO原始OData接口数据分散且格式不统一,需耗时整合为一致模式(例如统一处理`NumericValue`与显示字符串的精度差异);其次,数据跨度长达17年,受限于部分国家报告缺失或政治动荡,导致32%的潜在年份-国家组合存在空白。此外,置信区间元数据(`value_low`与`value_high`)的可用性仅覆盖65%的样本,需谨慎处理缺失值以避免模型偏差。
常用场景
经典使用场景
该数据集聚焦于非洲国家小学毕业阶段儿童数学最低熟练水平的达标比例,是评估基础教育质量与区域教育公平性的关键监测指标。其经典使用场景涵盖了对非洲各国教育成果的跨国比较分析、多年趋势追踪以及性别或城乡维度下的教育差异探究。研究者可借助该数据集构建时间序列模型,揭示教育政策干预或社会经济变迁对儿童数学能力的动态影响,从而为区域教育发展规划提供实证基础。
实际应用
在实际应用层面,该数据集为非洲各国教育部门、国际发展机构及非政府组织提供了直观的绩效基准工具。政策制定者可基于数据识别低绩效国家或性别差距显著区域,从而针对性分配教育资源或调整课程改革方案。教育科技公司也能利用这些历史数据训练预测模型,估算未来教育成果的趋势拐点,辅助制定长期教育投资战略。
衍生相关工作
基于该数据集衍生的经典工作包括:利用时序模型预测非洲国家数学熟练度达标率的收敛趋势,评估千禧年发展目标对基础教育的实际影响;结合世界银行教育投入数据,构建面板回归模型剖析教育经费与学业表现的非线性关系;以及将性别分层数据与社会发展指数关联,揭示性别平等进步与数学能力提升的协同演化规律。这些工作拓展了交叉学科的研究范式。
以上内容由遇见数据集搜集并总结生成



