electricsheepafrica/africa-who-mean-non-hdl-cholesterol-eannonhdlc
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-mean-non-hdl-cholesterol-eannonhdlc
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家1980年至2018年间WHO GHO指标Mean Non-HDL cholesterol, crude(NCD_CHOL_MEANNONHDL_C)的国家级观测数据。它是[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Mean Non-HDL cholesterol, crude" (`NCD_CHOL_MEANNONHDL_C`) across African nations, spanning 1980–2018. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,涵盖1980年至2018年间46个非洲国家的“非高密度脂蛋白胆固醇均值(粗率)”指标。数据以Parquet格式重新封装,采用统一的列式架构,所有数值均源于高精度的浮点字段而非显示字符串,同时保留了可用的置信区间上下界。
特点
数据集包含5,382条观测记录,每个国家-年份组合可能按性别(SEX_BTSX、SEX_FMLE、SEX_MLE)等维度进行分层,形成独立行记录。核心字段包括指标代码、国家ISO3代码、年份、数值估计及置信区间,并附有数据更新时间戳,便于时序分析与亚组聚合。
使用方法
可通过HuggingFace Datasets库直接加载为Pandas DataFrame,例如`load_dataset("electricsheepafrica/africa-who-mean-non-hdl-cholesterol-eannonhdlc")`。用户可根据`dim1`字段筛选特定性别(如SEX_BTSX获取两性总体数据),或按`country_iso3`列提取单一国家的时间序列进行回归或分类建模。
背景与挑战
背景概述
非传染性疾病(NCDs)已成为全球公共卫生领域的核心关切,其中血脂异常,尤其是非高密度脂蛋白胆固醇(Non-HDL cholesterol)水平的升高,被广泛认定为心血管疾病的关键风险因子。世界卫生组织(WHO)全球卫生观察站(GHO)长期追踪这一指标,旨在为各国政策制定和干预措施提供数据支撑。在此背景下,Electric Sheep Africa团队于近年整合了WHO GHO的公开数据,创建了“africa-who-mean-non-hdl-cholesterol-eannonhdlc”数据集。该数据集聚焦非洲地区,收录了1980年至2018年间46个非洲国家的年均非高密度脂蛋白胆固醇水平,共计5382条观测记录。其核心研究问题在于系统梳理非洲人群的血脂代谢状况,为机器学习模型提供标准化的结构化训练数据,进而推动区域健康风险评估与精准医学研究。该数据集填补了非洲大陆在心血管代谢健康领域高质量、机器可用数据的空白,对于促进健康不平等研究、指导公共卫生资源分配具有重要影响力。
当前挑战
该数据集所应对的领域挑战主要在于,非洲地区的心血管疾病风险长期缺乏系统性监测,而传统的流行病学调查往往受限于样本量小、时间跨度短和地域覆盖不全。现有研究多依赖欧美人群的推导模型,难以直接适用于非洲人群独特的遗传背景与生活方式,因此构建一个覆盖多年、多国且具有一致指标定义的数据集至关重要。在构建过程中,数据集面临多重技术挑战:其一,原始WHO GHO数据以分层形式存储,不同国家与年份的记录常因性别、居住地类型等维度(dim1、dim2)而产生多条重复条目,需要精细的清洗与过滤策略;其二,部分观测值缺少置信区间或存在数据缺失,需谨慎处理以确保模型训练的鲁棒性;其三,不同数据来源的指标编码与单位可能隐含差异,必须统一为浮点型数值(NumericValue),并剔除显示字符串(value_display)带来的格式干扰,从而保证数据集的可靠性与可复现性。
常用场景
经典使用场景
该数据集汇聚了1980至2018年间46个非洲国家的非高密度脂蛋白胆固醇(Non-HDL cholesterol)均值观测数据,是衡量心血管代谢健康风险的核心指标之一。经典使用场景包括基于时间序列的流行病学趋势分析,研究人员可借助该数据集纵向追踪非洲各国非高密度脂蛋白胆固醇水平的变化轨迹,揭示其在性别、城乡等亚群间的分布差异,为构建区域性的心血管疾病负担模型提供定量基础。
实际应用
在实际应用层面,该数据集可赋能国际卫生组织与非洲各国卫生部开展精准的疾病监测与预警。公共卫生从业者能够利用这些数据绘制非高密度脂蛋白胆固醇的时空分布图谱,评估现有干预措施(如膳食改善、他汀类药物推广)的实际成效,并优化有限医疗资源的配置。此外,该数据集也为机器学习驱动的健康风险预测模型提供了标准化训练样本,助力实现从宏观趋势分析到个体化健康管理的落地转化。
衍生相关工作
该数据集衍生了一系列具有影响力的相关工作,例如将其作为核心输入用于构建非洲区域性非传染性疾病负担预测模型,并结合社会经济与环境因子探究心血管风险的驱动机制。同时,有研究基于该数据集的性别与城乡分层维度,开展了针对非洲女性的血脂异常专项分析。该数据集还常与WHO GHO系列中的血压、血糖等指标联合使用,催生了多病种共病风险评估的系统性工作,显著扩展了单一指标研究的科学视野。
以上内容由遇见数据集搜集并总结生成



