electricsheepafrica/africa-who-children-aged-5-years-with-pneumonia-symptoms-taken-to-a
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-children-aged-5-years-with-pneumonia-symptoms-taken-to-a
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站指标“5岁以下儿童因肺炎症状被送往医疗机构的百分比”(`carep`)在非洲国家的国家级观察数据,时间跨度为2005年至2019年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory的OData API获取,并以Parquet文件格式重新打包,所有数值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`, `value_high`)。
This dataset contains country-level observations for the WHO GHO indicator "Children aged < 5 years with pneumonia symptoms taken to a health facility (%)" (`carep`) across African nations, spanning 2005–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区5岁以下肺炎患儿求医比例(指标代码carep)。Electric Sheep Africa团队将原始数据重新打包为Parquet格式,并统一了数据模式。数据涵盖2005至2019年间41个非洲国家的3,079条观测记录,数值均取自浮点精度的NumericValue字段,同时保留了置信区间上下限(value_low、value_high)。当指标存在分层维度(如性别、年龄组、居住地类型等)时,每个国家、年份与维度的独特组合会生成独立数据行,用户可通过dim1/dim2字段进行过滤或按层聚合。
使用方法
用户可通过HuggingFace datasets库便捷加载此数据集,例如使用load_dataset函数直接获取,并可将其转换为pandas DataFrame进行深入分析。针对全国层面的研究,建议过滤dim1字段中后缀为_BTSX(两性合计)或dim1为空的数据行,以获取未分层的数据。对于国家专项分析,可按country_iso3字段筛选特定国家并依年份排序,从而构建时间序列。数据集中的value_numeric列适合作为回归模型的目标变量,而分类任务则可基于子维度进行定义。数据许可为CC BY 4.0,允许广泛的研究与教育使用。
背景与挑战
背景概述
在全球公共卫生监测体系中,儿童肺炎作为五岁以下儿童的主要致死病因之一,其就诊率的准确评估对于制定干预策略、优化医疗资源配置具有关键意义。世界卫生组织(WHO)全球卫生观测站(GHO)于2005年至2019年间持续收集了覆盖41个非洲国家的“5岁以下肺炎症状儿童就诊于医疗机构的比例”(CODE: CAREP)指标数据。该数据集由Electric Sheep Africa在2024年左右基于WHO OData API重新整理并发布,采用统一的Parquet格式与结构化元数据,旨在为机器学习研究提供高质量的区域性健康数据基准。核心研究问题聚焦于非洲大陆儿童肺炎就诊率的时空分布及其社会人口学差异,尤其关注在低收入与中等收入国家中,性别、教育水平、居住地类型及财富等级等因素对该就诊率的影响。该数据集已被纳入ML-Ready的非洲数据集合,成为连接传统流行病学与数据驱动决策的重要桥梁,对推动全球健康公平性分析与AI辅助公共卫生政策制定具有显著影响力。
当前挑战
该数据集所解决的领域挑战主要体现为两点。其一,在非洲地区,儿童肺炎就诊率受到地理可达性、家庭经济状况、初级卫生保健覆盖强度及传统文化观念等多重复杂因素的交互影响,传统回归模型难以捕捉其非线性与时空异质性,亟需基于机器学习方法识别关键驱动因子并进行预测。其二,数据构建过程面临严重的数据稀疏性与质量挑战:41个国家横跨15年,但仅包含3,079条记录,且不同国家年份间存在大量缺失值;子维度(如DHSMICSGEOREGION、WEALTHDECILE)分类标准在不同调查周期中不一致,导致跨时间整合困难;同时,置信区间(value_low/value_high)的缺失限制了不确定性量化能力。此外,人口抽样调查的系统性偏差与WHO各成员国报告数据的滞后性,进一步加剧了模型泛化与因果推断的难度。
常用场景
经典使用场景
该数据集聚焦于非洲地区五岁以下肺炎患儿被送至医疗机构接受治疗的比例,是评估区域儿童健康服务可及性与利用效率的关键指标。研究者常借助该数据集开展时间序列分析,揭示非洲各国在2005至2019年间医疗覆盖水平的演变轨迹。同时,通过融合国家、年龄组、性别、城乡居住类型及财富分位等多维度分层信息,可深入剖析影响就医行为的复杂社会经济因素。该数据还可用于构建机器学习分类与回归模型,预测不同亚群的就医概率,为公共卫生干预措施的精准施策提供数据支撑。
解决学术问题
该数据集有效填补了非洲五岁以下儿童肺炎就医率这一细分领域的标准化数据空白,解决了因各国统计口径不一、数据分散导致的大规模跨区域比较难题。学术研究中,它支撑了对儿童肺炎就医不平等现象的实证分析,揭示了健康结果在性别、贫富差距及城乡差异上的显著分层效应。通过联合置信区间字段,研究者可开展稳健性检验与不确定性量化,提升模型推断的可靠性。该数据集的意义在于为全球健康治理中的资源优化配置提供了经验证据,推动了循证卫生政策在非洲的落地。
实际应用
在实际应用中,该数据集为国际卫生组织及非洲各国卫生部门制定儿童健康战略提供了量化基准。基于不同国家与亚群的就医率差异,决策者可识别出医疗覆盖的薄弱环节,从而优先投放疫苗、抗生素及社区医疗资源。此外,数据集支持构建早期预警系统,结合时间趋势预测肺炎就医率的异常波动,辅助应对突发疫情。非政府组织也能借助分层数据设计针对性的健康宣教项目,改善低收入家庭及农村地区的求医行为,最终降低儿童肺炎的患病率与死亡率。
数据集最近研究
最新研究方向
在全球公共卫生监测体系中,五岁以下儿童肺炎的就诊率是评估初级医疗可及性与儿童健康干预效果的核心指标。该数据集整合了世界卫生组织全球卫生观察站2005至2019年间非洲41国的分层统计信息,为探讨医疗公平性与区域健康差异提供了宝贵的时间序列证据。前沿研究正聚焦于利用此类结构化数据,结合贫困指数、教育水平与城乡分布等社会决定因素,通过机器学习模型识别肺炎就诊率偏低的脆弱群体以及潜在的干预瓶颈。特别是在撒哈拉以南非洲,该数据集有助于量化母婴健康服务覆盖的递送缺口,推动基于数据驱动的精准公共卫生策略制定,并为实现可持续发展目标中关于降低儿童死亡率的相关议程提供实证支撑。
以上内容由遇见数据集搜集并总结生成



