electricsheepafrica/africa-who-participation-rate-in-organized-learning
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-participation-rate-in-organized-learning
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2000年至2018年间,世界卫生组织全球健康观察指标参与有组织学习的比率(官方小学入学年龄前一年)(%)(SE_PRE_PARTN)的国家级观测数据。数据来源于WHO Global Health Observatory的OData API,并重新打包为Parquet文件,具有一致的架构。所有数值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。
This dataset contains country-level observations for the WHO GHO indicator Participation rate in organized learning (one year before the official primary entry age) (%) (SE_PRE_PARTN) across African nations, spanning 2000–2018. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲国家在正式小学入学前一年参与有组织学习的比率(以百分比计)。数据经过系统性提取与再封装,采用Parquet格式存储,并统一为一致的列式结构。所有数值均来源于浮点精度的`NumericValue`字段,而非显示字符串,同时保留了置信区间边界(`value_low`与`value_high`)。数据集覆盖2000年至2018年间38个非洲国家的690条观测记录,仅包含WHO非洲区域(AFR)的数据,并按国家、年份及性别等子维度进行分层组织,每一独特的国家-年份-维度组合构成一条独立记录。
特点
该数据集的核心特点在于其高可用性与标准化程度。它提供了点估计值作为主要的机器学习目标,并附带了置信区间以支持不确定性分析。数据按性别(SEX_BTSX、SEX_FMLE、SEX_MLE)进行分层,允许研究者根据性别维度进行精细筛选或跨层聚合。此外,数据集的列模式设计清晰,包含指示代码、国家ISO代码、年份、数值及维度类型等字段,便于直接用于表格分类与回归任务。由于样本量小于1000条,该数据集特别适合作为教育指标探索、模型原型验证或区域比较分析的小样本资源。
使用方法
可通过HuggingFace的`datasets`库直接加载,如`load_dataset('electricsheepafrica/africa-who-participation-rate-in-organized-learning')`,并将训练集转换为Pandas DataFrame进行后续处理。用户可依据`dim1`字段筛选特定性别层级的数据,例如通过过滤`dim1`以`_BTSX`结尾的行来获取全国范围内两性综合数据。对于国家级别的时间序列分析,可按`country_iso3`列进行过滤并按年份排序。数据以Parquet格式提供,支持高效的列式读取,适合集成到机器学习工作流或教育统计回归模型中。
背景与挑战
背景概述
在教育与健康交叉领域的研究中,儿童早期教育的参与率是衡量人力资本发展与社会进步的关键指标。世界卫生组织(WHO)全球卫生观察站(GHO)自2000年起系统收集并发布非洲各国“正式小学入学前一年有组织学习的参与率”数据,该数据集由Electric Sheep Africa团队整理并托管于HuggingFace平台,涵盖2000至2018年间38个非洲国家的690条观测记录。其核心研究问题在于揭示非洲地区学前教育参与水平的时空分布特征与性别差异,为政策制定者与教育研究者提供可靠的数据基础。该数据集填补了非洲区域教育参与率精细数据的空白,推动了机器学习方法在公共卫生与教育政策评估中的应用,具有显著的学术价值与现实指导意义。
当前挑战
该数据集所应对的领域问题核心在于,非洲地区儿童早期教育参与率的评估长期受限于数据碎片化、标准不统一及时间跨度不足等挑战,难以支撑跨国家、跨时期的系统性分析与比较。构建过程中,面对WHO OData API返回数据的多源异构结构,团队需将不同来源、不同编码格式的观测值统一转换为Parquet格式,并确保关键字段如置信区间边界的完整保留。此外,数据因按性别、居住地类型等维度分层,导致同一国家与年份存在多行记录,机器学习模型需处理因分层带来的冗余信息和数据结构复杂性,这对特征工程与数据清洗提出更高要求。
常用场景
经典使用场景
该数据集的核心应用在于追踪并分析非洲各国在正式入学前一年参与有组织学习的儿童比例,以此作为衡量学前教育普及程度的关键指标。研究者常利用这一时间序列数据,结合国家层面的社会经济、卫生与教育投入变量,构建面板数据模型,深入剖析区域间学前教育参与率的动态演变趋势与差异。
衍生相关工作
基于此数据,衍生了一系列聚焦于教育与健康、经济产出交叉影响的研究工作。相关的经典工作包括构建多指标混合效应模型,探索学前教育普及率与儿童营养状况、基础教育完成率的关联;以及利用贝叶斯统计方法对缺失数据进行插补,生成更完整的区域教育指标面板,为后续的因果推断研究铺平了道路。
数据集最近研究
最新研究方向
该数据集聚焦于非洲学龄前儿童在正式入学前一年参与有组织学习的比率,是评估区域教育准备度与早期人力资本积累的关键指标。当前前沿研究正借助此类精细化的WHO官方数据,结合机器学习模型对非洲各国的教育参与率进行时空预测与缺口识别,尤其关注性别差异(SEX_BTSX/SEX_FMLE/SEX_MLE)及城乡维度下的不均衡现象。这一方向与联合国可持续发展目标中‘确保包容和公平的优质教育’紧密呼应,在撒哈拉以南非洲教育资源匮乏、入学率波动显著的现实背景下,数据集通过提供长达18年(2000-2018)、覆盖38个国家的高质量结构化记录,为量化教育政策干预效果、推动基于证据的区域教育扶贫策略提供了不可替代的底层支撑。
以上内容由遇见数据集搜集并总结生成



