five

electricsheepafrica/africa-who-xxxxx-for-deletion

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-xxxxx-for-deletion
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在WHO GHO指标“xxxxx for deletion: (child underweight, see NUTUNDERWEIGHTPREV)”下的国家级别观察数据,时间跨度为1993年至2019年。数据来源于WHO Global Health Observatory的OData API,并以Parquet文件格式重新打包,包含数值估计(浮点精度字段)和置信区间界限(如可用)。数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。

This dataset contains country-level observations for the WHO GHO indicator "xxxxx for deletion: (child underweight, see NUTUNDERWEIGHTPREV)" (`uwgt5`) across African nations, spanning 1993–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData应用程序编程接口,聚焦于非洲地区儿童体重不足指标(代码uwgt5)。数据经过系统化的提取与重构,以Parquet文件格式封装,并采用统一的模式设计。所有数值均来源于原始数据中的浮点精度字段NumericValue,而非显示的字符串形式。同时,在可行的情况下,数据集纳入了置信区间的上下界(value_low与value_high),以增强统计信息的完整性。最终构建的集合覆盖了1993年至2019年间41个非洲国家的2,463条观测记录,且仅筛选出WHO非洲区域(AFR)的条目,确保了地域聚焦的精确性。
特点
此数据集的一个显著特点在于其丰富的分层维度结构,涵盖了年龄组、教育水平、居住地类型、性别及财富五分位数等多重类别。当指标依据这些维度进行分层时,每个国家、年份与维度的独特组合均形成独立的数据行,为细粒度的分析提供了可能。此外,数据集中还包含了DHSMICS地理区域等更为细致的空间层级,使得研究者能够深入探索亚国家层面的差异。这种结构化的多维设计,极大地方便了用户针对特定子群体(如城乡、性别)进行数据筛选与聚合分析。
使用方法
用户可通过Hugging Face的datasets库便捷地加载该数据集,一句代码即可将其转换为Pandas数据框进行后续操作。若需获取仅含两性的国家级别的观测,用户可利用dim1字段进行筛选,定位以“_BTSX”结尾的值或空值。对于时间序列分析,则可通过country_iso3列筛选特定国家,并依据年份进行排序。这种设计允许研究者灵活地从宏观趋势到微观分层进行多层次的探索,满足从公共卫生监测到机器学习建模的多样化需求。
背景与挑战
背景概述
儿童体重不足是衡量营养不良与健康不平等的重要指标,尤其在撒哈拉以南非洲地区,这一问题直接关联到婴幼儿死亡率、认知发育迟缓及长期经济发展潜力。该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)于2019年创建,经Electric Sheep Africa团队重新打包为机器学习就绪格式,覆盖1993至2019年间41个非洲国家的2,463条观测记录。核心研究问题在于通过标准化的健康指标(uwgt5)追踪儿童体重不足的时空分布与人口学差异,为公共卫生政策制定提供数据基础。其影响力体现在:作为统一、可复用的非洲健康数据资源,降低了流行病学分析与AI建模的数据获取门槛,推动了区域健康不平等问题的量化研究。
当前挑战
该数据集所解决的领域问题在于:传统上,非洲儿童营养状况数据分散于不同国家的调查与报告,缺乏统一的时间序列与跨国产出比较框架,导致机器学习模型难以直接应用于预测营养不良分布或评估干预效果。构建过程中的挑战包括:原始WHO数据经过多级分层(如年龄、性别、教育水平、财富五等分、居住区域等),导致每个国家-年份组合产生多个亚组观测,需谨慎处理数据聚合与降维以避免信息丢失或引入偏差;置信区间字段(value_low/value_high)仅部分可用,限制了不确定性建模的完整性;此外,数据集为元数据标注为“待删除”状态,暗示其与另一指标NUTUNDERWEIGHTPREV存在重叠或废弃风险,影响了数据源的长期稳定性与可信度。
常用场景
经典使用场景
在公共卫生与流行病学研究中,非洲儿童低体重率是衡量区域营养状况与健康不平等的关键指标。该数据集汇集了1993至2019年间41个非洲国家的国家层面观测数据,涵盖年龄组、性别、居住地类型、教育水平及财富五分位等多个亚维度分层信息。研究者可基于此数据集进行时间序列分析,追踪各国儿童低体重率的历史演变趋势;也可通过分层子集比较不同社会经济群体间的营养差异,揭示健康决定因素的深层结构。数据集中提供的点估计值及置信区间,为构建回归模型、进行假设检验提供了可信的统计基础。
衍生相关工作
围绕该数据集,已衍生出多项具有代表性的研究工作。在机器学习领域,研究者基于其时间序列与多维特征构建了儿童低体重率的预测模型,探索了随机森林、梯度提升及长短期记忆网络等算法在稀疏健康数据上的泛化能力。在计量经济学领域,面板数据回归分析被用于量化女性教育水平、清洁水源覆盖率与儿童营养状况之间的因果关系。此外,该数据集还被整合进健康不平等度量研究,通过计算集中指数与泰尔指数,系统刻画了非洲各国内部不同财富层级间儿童低体重率的不均衡分布格局。
数据集最近研究
最新研究方向
该数据集聚焦于非洲儿童体重不足(child underweight)这一关键营养健康指标,覆盖1993至2019年间41个非洲国家的观测数据,并细分至年龄组、教育水平、居住地类型、性别及财富五分位等多维度。在公共卫生领域的前沿研究中,该数据集可用于构建机器学习模型以预测区域儿童营养不良的时空演变趋势,关联全球粮食危机与气候变化对非洲脆弱群体的冲击,并支持联合国可持续发展目标(SDG 2.2)中关于消除儿童发育迟缓与消瘦的进展监测。其标准化架构与置信区间字段为跨国家多指标联合分析提供了可靠基础,有望推动精准健康干预策略的制定。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务