electricsheepafrica/africa-who-adolescent-fertility-rate
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-adolescent-fertility-rate
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家1993年至2019年间WHO全球健康观察站指标“青少年生育率(每1000名15-19岁女性)”的国家级观测数据。数据来源于WHO全球健康观察站的OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自浮点精度字段(NumericValue),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖了41个非洲国家,总行数为4,776行,并提供了按国家、年份和维度分层的详细数据。
This dataset contains country-level observations for the WHO GHO indicator "Adolescent fertility rate (per 1000 women aged 15-19 years)" (`asfr1`) across African nations, spanning 1993–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 41 African nations with a total of 4,776 rows and provides detailed data stratified by country, year, and dimensions.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的官方OData API,聚焦非洲地区15至19岁女性青少年生育率(asfr1)。数据被重新打包为Parquet格式,遵循一致的架构,仅采纳高精度的NumericValue字段,并保留置信区间边界(value_low, value_high)。覆盖1993至2019年间41个非洲国家的4776条观测记录,所有条目均通过WHO AFRO区域代码过滤。数据集还通过多种子维度(如教育水平、居住地类型、财富分位数等)进行分层,每一独特的国家、年份与维度组合构成独立行,便于精细化分析。
特点
该数据集的核心特点在于其结构化与多层次性。指标编码清晰(asfr1),字段设计兼顾点估计与不确定性量化,提供置信区间以支持统计推断。子维度体系丰富,涵盖地理区域、教育程度、城乡类型、财富十等分及五等分等,揭示社会人口因素对生育率的交叉影响。此外,数据集以Parquet格式存储,兼具高效压缩与快速读取特性,且采用ISO国家编码和统一的时间戳管理,确保跨数据集的可整合性与ML就绪状态。
使用方法
用户可通过HuggingFace datasets库便捷加载数据:使用`load_dataset`函数获取训练集,并转换为Pandas DataFrame进行分析。对于国家层面分析,可通过筛选dim1列以`_BTSX`结尾或为空的行来获取总体观测值。时间序列分析可依据ISO代码过滤特定国家(如KEN代表肯尼亚),再按年份排序。如需考察细分维度(如教育或财富分层),则可按dim1或dim2字段进行过滤,或选择聚合各层级数据进行宏观分析。
背景与挑战
背景概述
青少年生育率是衡量全球公共卫生与社会发展进程的核心指标之一,尤其与少女教育机会、母婴健康及贫困循环密切相关。世界卫生组织(WHO)通过全球卫生观察站(GHO)长期监测该指标,但其数据常分散于异构系统中,难以直接用于机器学习建模。为此,Electric Sheep Africa研究团队于近年整合并发布了africa-who-adolescent-fertility-rate数据集,系统汇聚了1993年至2019年间41个非洲国家的官方统计记录。该数据集以标准化Parquet格式封装,并保留了置信区间与多维度分层信息(如城乡、教育水平及财富分位数),为流行病学预测、政策评估及非洲健康指标的可解释性分析提供了统一且高质量的数据基础,显著推动了数据驱动型全球健康研究的发展。
当前挑战
该数据集所应对的领域核心挑战在于,非洲青少年生育率受到社会经济、文化习俗及医疗服务可及性等多重非线性因素交织影响,传统统计模型难以捕捉其动态演变规律,亟需借助机器学习方法实现精准预警与归因分析。同时,在数据集构建过程中,研究者面临原始WHO OData接口数据格式不统一、部分年份与国家存在高缺失率、置信区间分布不均匀以及不同维度组合需推导汇总等复杂预处理难题。此外,如何确保跨年份、跨区域观测中数值的时间一致性,并兼顾分层子集间的潜在共线性,也是提升该数据集在回归与分类任务中有效性的关键瓶颈。
常用场景
经典使用场景
在非洲青少年健康与发展研究领域,该数据集被广泛用于分析15-19岁女性生育率的历史变迁与区域差异。研究者常利用其结构化时间序列数据,构建回归模型或时间序列分析框架,以探查社会经济因素、教育水平、居住地类型及财富分配对青少年生育率的潜在影响。数据集覆盖1993至2019年间41个非洲国家,且包含多种人口亚组划分,如按教育程度或城乡分类,从而支持多维度交叉分析与跨国比较。
衍生相关工作
该数据集衍生出多项经典研究,包括运用面板数据模型考察女性教育对生育率的中介效应,以及结合地理信息系统探讨生育率与医疗资源可达性的空间关联。此外,部分工作基于该数据开发了时间序列预测算法,用于模拟不同政策情景下生育率演变轨迹。这些基础性成果不仅深化了对非洲青少年生育行为的理解,也为后续因果推断与健康经济学建模构建了关键数据基础设施。
数据集最近研究
最新研究方向
该数据集聚焦于非洲青少年生育率的时空动态分析,其子维度分层(如教育水平、居住区域、财富十等分位)为流行病学与社会经济交叉研究提供了精细颗粒度的数据支撑。当前前沿方向包括:结合地理信息系统(GIS)与机器学习回归模型,挖掘1993–2019年间非洲国家青少年生育率与女性教育普及率、城镇化进程及贫富差距的非线性关联;利用置信区间辅助贝叶斯时空建模,推断数据稀疏国家的隐性风险;以及构建基于随机森林或梯度提升树的预测框架,识别高易感人群(如农村未受教育女性)并预警未来震荡。该数据集还催生了多场景可解释性研究,例如Shapley值归因分析以量化财富阶层对生育决策的主导作用,其开放许可与WHO全球卫生观察站溯源体系确保了实证推演的严谨性与可复现性。
以上内容由遇见数据集搜集并总结生成



