five

electricsheepafrica/africa-who-mean-non-hdl-cholesterol-eannonhdla

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-mean-non-hdl-cholesterol-eannonhdla
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在1980年至2018年间关于平均非高密度脂蛋白胆固醇,年龄标准化(WHO GHO指标代码:NCD_CHOL_MEANNONHDL_A)的国家级观测数据。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包。数据集涵盖了46个非洲国家,共5,382行数据,包括点估计值(value_numeric)、置信区间边界(value_low, value_high)等信息。此外,数据集还包含了一些子维度,如性别(SEX_BTSX, SEX_FMLE, SEX_MLE)等。该数据集是Electric Sheep Africa项目的一部分,旨在为机器学习提供统一的非洲数据仓库。

This dataset contains country-level observations for the WHO GHO indicator Mean Non-HDL cholesterol, age-standardized (NCD_CHOL_MEANNONHDL_A) across African nations, spanning 1980–2018. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 46 African nations and includes 5,382 rows of data, with sub-dimensions such as sex (SEX_BTSX, SEX_FMLE, SEX_MLE).
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站的OData API,聚焦非洲地区46个国家的非高密度脂蛋白胆固醇年龄标准化均值(指标代码NCD_CHOL_MEANNONHDL_A),时间跨度覆盖1980年至2018年。数据以Parquet格式重新打包,采用统一的数据模式,直接从NumericValue字段提取浮点精度数值,而非显示字符串,并包含置信区间上下限(value_low、value_high)。针对按性别或年龄组分层的指标,数据集以国家、年份和维度组合生成独立行,支持通过dim1/dim2字段进行筛选或跨层聚合。
特点
数据集具备三大显著特点:其一,覆盖范围广泛,包含46个非洲国家共5382条观测记录,时间跨度近四十年,为纵向分析提供了丰富素材;其二,数据结构标准化,所有字段如indicator_code、country_iso3、year及value_numeric等均为明确类型,便于机器学习任务直接调用;其三,内部分层清晰,通过SEX等子维度字段区分不同统计口径,用户可灵活提取全性别或指定性别的数据,适配回归与分类场景。
使用方法
数据集使用极为便捷,只需通过HuggingFace的datasets库即可加载:执行load_dataset函数后,数据自动转为可操作的Pandas DataFrame。针对全性别国家层面的分析,可筛选dim1为SEX_BTSX或缺失值的行;进行单国时间序列研究时,按country_iso3过滤并排序年份即可。数据集提供统一的schema,支持直接作为回归或分类任务的输入特征,适合流行病学建模与健康指标预测。
背景与挑战
背景概述
全球非传染性疾病负担的持续攀升,使得血脂异常作为心血管疾病的核心危险因素受到日益关注。非洲地区因流行病学转型与健康数据碎片化,长期以来缺乏高分辨率、标准化且易于机器学习建模的血脂指标数据集。在此背景下,由Electric Sheep Africa团队于2024年整合世界卫生组织(WHO)全球卫生观察站(GHO)的开放数据,发布了名为africa-who-mean-non-hdl-cholesterol-eannonhdla的数据集。该数据集聚焦于年龄标准化的非高密度脂蛋白胆固醇均值(NCD_CHOL_MEANNONHDL_A),覆盖46个非洲国家自1980年至2018年间的5,382条观测记录,为区域健康指标的可计算化提供了关键数据资产。其影响力体现在:一是将官方卫生统计转化为可复现、可扩展的机器学习格式(Parquet),二是填补了非洲大陆系统性血脂数据的结构化缺口,三是促进了对心血管疾病风险因素的时空建模与智能预警研究。
当前挑战
该数据集所应对的领域挑战主要源于非洲地区非传染性疾病监测体系的不完善,具体包括:1) 多数国家缺乏长期、连续且国际可比的血脂指标统计数据,导致跨地区风险因子建模受限于数据稀疏性;2) 既有原始数据常混杂着不同统计口径(如性别与城乡分层)、置信区间缺失以及数值精度不一的问题,影响模型训练的鲁棒性与泛化能力。在数据集构建过程中亦面临显著挑战:其一,从WHO的OData API中提取并清洗46国近40年的时序列数据,需处理国家代码不一致、分类维度歧义及时间点缺失等异构数据问题;其二,将分层指标(如按性别分列的亚维度)统一为结构化 schema 时,需兼顾分析灵活性与计算效率,避免因维度爆炸而降低机器学习适用性;其三,信源数据的更新频率与回溯范围不统一,需通过元数据标注(如last_updated字段)确保数据集的可追溯性与可复现性。
常用场景
经典使用场景
该数据集在流行病学与公共卫生领域拥有广泛应用,常被用于构建与心血管代谢风险相关的预测模型。研究者可借助该数据对不同非洲国家及年份的年龄标准化非高密度脂蛋白胆固醇平均水平进行系统性分析,探讨其在性别维度或城乡维度上的分布差异。数据包含置信区间,有助于进行稳健的统计推断与时间趋势分析。该数据集结构清晰、格式统一,便于直接接入机器学习流程,适合用于分类(如高危人群识别)或回归(如连续指标预测)两类核心任务,成为非传染性疾病建模中不可或缺的基础数据源。
解决学术问题
该数据集精准回应了非洲地区非传染性疾病流行病学研究的核心难题,即区域级血脂指标长期缺失与采样标准不统一的问题。通过整合WHO全球卫生观察站多年的检测数据,数据集为揭示非洲不同国家在非高密度脂蛋白胆固醇指标上的时空演化路径提供了量化依据。学术研究中,它帮助解决了因样本稀缺而难以开展的跨地区、长时序疾病负担估算问题,并填补了非洲地区在全球心血管病风险预测模型构建中的空白,极大推动了数据驱动下的区域公共卫生政策评估与干预策略优化。
衍生相关工作
基于该数据集已衍生出多项引用WHO GHO标准并注重非洲区域健康的代表性研究。其中包括构建非洲心血管疾病风险评分系统,利用非高密度脂蛋白胆固醇作为核心输入特征,整合其他代谢指标从而提升预测灵敏度。另有学术团队提出基于该数据的时空插值与缺失值填补方法,借助图神经网络对稀疏观测下的区域血脂变化进行重建,显著改善了低代表性国家建模精度。此外,亦有工作探索该数据与饮食结构、社会经济指标之间的关联规则挖掘,推动了多源数据融合下的非传染性疾病成因分析范式发展。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务