five

electricsheepafrica/africa-who-low-birth-weight-number

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-low-birth-weight-number
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家2000-2020年间世界卫生组织全球健康观察指标“低出生体重数(以千计)”(LBW_NUMBER)的国家级观测数据,是Electric Sheep Africa集合的一部分——一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator "Low birth weight number (in thousands)" (`LBW_NUMBER`) across African nations, spanning 2000–2020. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据接口,聚焦于非洲地区低出生体重儿数量(单位为千)这一关键公共卫生指标。数据经由系统化的ETL流程,从OData API中提取浮点精度字段`NumericValue`,摒弃冗余的显示字符串,并整合为统一模式的Parquet文件。数据集覆盖2000年至2020年间36个非洲国家的年度观测值,总计756条记录,数据条目均附有置信区间边界(`value_low`与`value_high`),以增强统计可靠性。整个构建过程遵循CC BY 4.0许可协议,确保数据的开放性与复用性。
特点
该数据集的核心特点在于其高度结构化的架构与精准的区域聚焦。所有观测值均对应唯一的国家、年份及指标代码标识,形成清晰的时间序列矩阵。数据集提供了丰富的元数据字段,包括WHO区域代码、维度类型(如性别或居住地类型)及其取值,支持多维度的细粒度分析。此外,数据收录了低出生体重数量的点估计值及其置信区间,为后续的统计推断与预测建模提供了可靠的基础。缺失数据以NaN表示,保持了数据集的完整性与透明度。
使用方法
使用该数据集时,用户可通过HuggingFace的`datasets`库直接加载为Pandas DataFrame,便于进行传统的表格数据分析。对于回归任务,可将`value_numeric`列作为目标变量;分类任务则可根据阈值对低出生体重水平进行离散化处理。推荐在分析前对`dim1`字段进行过滤,例如筛选`_BTSX`后缀的条目以获取全国性两性数据,或按国家ISO代码切片进行国别时间序列分析。数据集自带置信区间列,可作为权重或不确定性指标用于进阶的鲁棒建模场景。
背景与挑战
背景概述
低出生体重(Low Birth Weight, LBW)是衡量新生儿健康与公共卫生成效的关键指标,与婴儿死亡率、生长发育迟缓及成年期慢性疾病风险密切相关。世界卫生组织(WHO)通过全球卫生观察站(GHO)长期监测各国LBW流行趋势,为政策制定与干预评估提供依据。非洲地区因母婴营养不足、医疗资源匮乏等因素,LBW负担尤为沉重,但数据稀疏性与非标准化严重制约了区域分析与机器学习建模。在此背景下,Electric Sheep Africa团队于2023年整合WHO GHO数据,构建了africa-who-low-birth-weight-number数据集,聚焦36个非洲国家2000-2020年的LBW绝对数量(千例),并统一为Parquet格式与一致模式,旨在填补非洲健康数据在机器可读性、完整性与可复现性方面的空白,推动区域健康指标的时间序列分析、预测建模及不平等研究。
当前挑战
该数据集面临的核心挑战在于所解决的领域问题——非洲低出生体重负担的量化与建模:首先,WHO GHO原始数据存在国家间报告频率不均、置信区间缺失及维度变量(如性别、居住地)不完整等问题,导致时间序列非平衡性与噪声偏高;其次,仅36个非洲国家具备连续20年记录,样本量仅756行,难以支撑复杂深度学习模型,且存在严重的地域偏差(如撒哈拉以南覆盖远优于北非),可能加剧模型泛化风险。在构建过程中,团队需处理OData API返回的异构数据结构,将字符串型显示值解析为浮点精度数值,并保留置信区间边界,同时统一国家编码、滤除WHO地区外的冗余条目,耗时显著。此外,原始指标未按亚维度分层提供,单一年份每国仅有单一观测值,限制了细粒度人口亚组(如城市vs农村)的分析,降低了数据对本地化干预研究的支持力度。
常用场景
经典使用场景
该数据集汇聚了世界卫生组织全球卫生观察站关于非洲国家低出生体重婴儿数量(以千计)的年度观测数据,时间跨度覆盖2000年至2020年,涵盖36个非洲国家。其经典使用场景主要聚焦于公共卫生领域中的时空趋势分析与建模。研究者可利用该数据集构建回归模型,以国家为面板单位,探索低出生体重发生率随时间演变的规律,或将其作为关键预测变量纳入更广泛的母婴健康研究框架。数据集以Parquet格式存储,并附带置信区间字段,便于进行不确定性量化与稳健估计。
衍生相关工作
该数据集衍生了一系列经典学术工作,推动了非洲健康数据科学的发展。基于此数据,研究者开发了针对稀疏面板数据的缺失值插补方法,如利用贝叶斯层次模型填补部分国家早期年份的缺失观测。亦有工作将其与卫星遥感数据(如夜间灯光指数、植被覆盖度)结合,构建多源数据融合框架,探究环境因素与低出生体重之间的非线性关系。该数据集还被用作基准测试平台,评估不同机器学习模型在低样本量、高空间异质性条件下对健康指标的预测性能,催生了诸如时空随机森林、集成深度高斯过程等专为非洲健康数据设计的算法创新。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区低出生体重婴儿数量的长期趋势监测,为全球健康不平等研究提供了关键数据支持。近年来,该领域的前沿方向集中于利用时空建模与机器学习方法,结合WHO全球卫生观测站数据,探索低出生体重与孕产妇营养、贫困及医疗可及性之间的复杂关联。特别是在撒哈拉以南非洲,此类数据集已逐步成为评估联合国可持续发展目标(SDG 3)中关于新生儿健康指标进展的核心工具。通过精细化分析国家层面跨年度的置信区间数据,研究者得以识别高强度干预区域,并为改善围产期保健策略提供实证依据,推动数据驱动的公共卫生决策在非洲落地。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务