five

electricsheepafrica/africa-who-mean-hdl-cholesterol-olmeanhdla

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-mean-hdl-cholesterol-olmeanhdla
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“年龄标准化平均HDL胆固醇”(NCD_CHOL_MEANHDL_A)在非洲国家的国家级观测数据,时间跨度为1980年至2018年。它是Electric Sheep Africa项目的一部分,这是一个统一的、适合机器学习使用的非洲数据仓库。数据直接来源于WHO全球健康观察站的OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator "Mean HDL cholesterol, age-standardized" (`NCD_CHOL_MEANHDL_A`) across African nations, spanning 1980–2018. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织(WHO)全球卫生观察站(GHO)的OData API,聚焦于非洲地区年龄标准化后的平均高密度脂蛋白(HDL)胆固醇指标(代码NCD_CHOL_MEANHDL_A)。数据以Parquet格式重新打包,确保架构一致性,并直接从NumericValue字段提取浮点精度的观测值,同时保留置信区间上下限(value_low、value_high)。覆盖1980年至2018年间46个非洲国家的5382条记录,每条记录对应国家-年份-维度(如性别)的独特组合,dim1与dim2列用于标识亚组分层。数据经CC BY 4.0许可发布,由Electric Sheep Africa项目统一整理为机器学习就绪格式。
特点
此数据集具备鲜明的多维度与时间序列特性:纵向跨度近四十年,横向涵盖46个非洲国家,并依据性别(SEX_BTSX、SEX_FMLE、SEX_MLE)等亚组进行分层,使得研究者既能开展国家间横截面比较,又能追踪国家内部的时间变化趋势。数据包含点估计值与置信区间,支持不确定性量化分析。所有字段类型清晰,如indicator_code、country_iso3、year等关键标识列,搭配value_numeric作为主要回归或分类目标,兼顾科研严谨性与机器学习应用的便捷性。
使用方法
用户可通过HuggingFace datasets库直接加载数据集,调用load_dataset("electricsheepafrica/africa-who-mean-hdl-cholesterol-olmeanhdla")获取训练集(train),并利用to_pandas()转换为DataFrame进行操作。针对特定分析场景,建议依据dim1列筛选所需亚组(如需全国总体数据,可选择以'_BTSX'结尾或缺失的dim1值);时间序列分析则可按country_iso3分组并排序year列。对于分层数据,用户需根据需要过滤或聚合dim1/dim2列,以获取特定性别或地区类型下的HDL胆固醇均值估计。
背景与挑战
背景概述
高密度脂蛋白胆固醇(HDL胆固醇)水平是心血管健康的重要生物标志物,其低水平与非传染性疾病(NCDs)的发病风险密切相关。在非洲区域,由于公共卫生数据分散、标准化程度不足,利用全球统一数据集进行跨国家、跨年代的HDL胆固醇水平纵向研究面临严峻挑战。该数据集由Electric Sheep Africa团队基于世界卫生组织(WHO)全球健康观察站(GHO)构建,统计时间覆盖1980至2018年,涵盖46个非洲国家的年龄标准化平均HDL胆固醇观测值,共计5,382条记录。数据集统一采用Parquet格式并附置信区间,旨在为机器学习驱动的非洲区域健康风险建模提供高质量、可复用的结构化输入,对于填补该地区非传染性疾病流行病学数据分析的空白具有重要价值。
当前挑战
在领域问题层面,该数据集致力于解决非洲区域HDL胆固醇水平时空动态建模的数据匮乏和不一致性挑战,尤其是面对非传染性疾病监测中跨国家数据可比性低、缺失值严重、亚人群分层(如性别、地区)粒度不一等结构性问题。在构建过程中,团队需克服WHO OData API返回数据中字符串与数值字段混杂、置信区间字段部分缺失、维度标签(如SEX_BTSX)编码歧义等数据清洗难题,还需在保留原有时序分层信息的同时,保证Parquet格式下字段模式的一致性,以便于下游的表格分类与回归模型直接调用。
常用场景
经典使用场景
非洲地区高密度脂蛋白胆固醇(HDL-C)均值数据的标准化处理与建模,是该数据集最经典的使用场景。在心血管疾病流行病学研究中,HDL-C被视为关键的 protective biomarker,其年龄标准化均值能够有效反映人群代谢健康水平。研究人员通常利用该数据构建非洲各国自1980年至2018年间的纵向面板数据集,通过时间序列分析或混合效应模型,揭示HDL-C水平在非洲不同国家、不同性别及城乡分布中的演化规律,为区域性慢性病负担评估提供定量基础。
实际应用
在实际应用中,该数据集为非洲区域卫生政策制定者与公共卫生机构提供了可操作的数据基准。通过观察各国HDL-C均值的时间趋势与置信区间,政府能够识别出心血管疾病高危人群,并据此优化国家层面的健康筛查策略与饮食干预计划。此外,该数据可与WHO其他非传染性疾病指标(如血压、空腹血糖)进行联合分析,支持构建整合型的慢性病预警系统,从而提升有限医疗资源在预防环节的分配效率。
衍生相关工作
该数据集衍生出多项具有影响力的后续经典工作,主要集中于两大方向:其一,基于多维分层(性别、年份、国家)的预测建模,研究者将其作为机器学习回归任务的标注目标,探索营养不良指标、烟草消费率等社会决定因素对HDL-C水平的预测能力;其二,该数据被广泛用于验证全球疾病负担研究的建模假设,例如通过其提供的置信区间校准贝叶斯时空模型中的不确定性参数,进而改进非洲地区心血管疾病风险地图的生成质量。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务