five

electricsheepafrica/africa-who-mean-total-cholesterol-totalchola

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-mean-total-cholesterol-totalchola
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“年龄标准化平均总胆固醇”(NCD_CHOL_MEANTOTALCHOL_A)在非洲国家的国家级观测数据,时间跨度为1980年至2018年。数据来源于WHO全球健康观察站OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自浮点精度字段(NumericValue),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集覆盖46个非洲国家,总行数为5,382行,并按性别等子维度进行分层。

This dataset contains country-level observations for the WHO GHO indicator "Mean total cholesterol, age-standardized" (NCD_CHOL_MEANTOTALCHOL_A) across African nations, spanning 1980–2018. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 46 African nations with a total of 5,382 rows and is stratified by sub-dimensions such as sex.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦非洲地区,收录了1980至2018年间46个非洲国家关于年龄标准化平均总胆固醇水平的国家级观测记录,共计5,382条。原始数据经统一架构的Parquet格式重新打包,保留了浮点精度的数值字段作为主要机器学习目标,并同步纳入了置信区间上下界(若存在)。此外,数据集对性别等子维度进行了分层,每个国家、年份与维度的独特组合形成独立行,从而确保了时空与人口维度的完整覆盖。
特点
该数据集具有卓越的领域针对性,专为非洲公共卫生与流行病学建模而设计。其特点体现在一致的模式化架构——包含指示代码、国家ISO3代码、年份、数值及置信区间等关键字段,辅以维度类型与值(如性别、居住区域)的详实标注,便于进行亚组筛选与汇总分析。所有数据均源于WHO官方开放数据,并采用CC BY 4.0许可协议,兼具权威性与可复用性。数据量级处于千至万行区间,非常适用于表格分类与回归任务。
使用方法
用户可通过HuggingFace的`datasets`库直接加载该数据集,例如调用`load_dataset("electricsheepafrica/africa-who-mean-total-cholesterol-totalchola")`,并将训练集转换为Pandas DataFrame进行处理。为聚焦国家层面的双性人群,可使用维度筛选逻辑过滤`dim1`列以选取`_BTSX`结尾或缺失值对应的行。针对特定国家的时间序列分析,则可通过`country_iso3`字段结合`sort_values("year")`轻松实现。该数据集可直接作为分类或回归任务的输入特征与目标变量。
背景与挑战
背景概述
心血管疾病是全球非传染性疾病的主要致死原因之一,而总胆固醇水平作为关键的生物标志物,其长期监测对于制定公共卫生干预策略至关重要。由世界卫生组织全球卫生观察站(WHO GHO)创建并开源的数据集“africa-who-mean-total-cholesterol-totalchola”,在电气羊非洲(Electric Sheep Africa)项目的框架下,于近年被重新加工为机器学习就绪格式。该数据集覆盖了1980年至2018年间46个非洲国家的年龄标准化平均总胆固醇观测值,共计5,382条记录,为研究非洲地区心血管代谢健康趋势及区域差异提供了统一、规范的数据基础。通过整合WHO官方API的数据并引入置信区间字段,该数据集显著增强了跨时空比较的准确性与可复现性,有力推动了非洲公共卫生领域的量化分析与建模研究。
当前挑战
该数据集所应对的核心领域挑战在于非洲大陆长期面临的心血管疾病数据碎片化问题,包括各国监测体系不均衡、检测标准化程度低以及时间序列稀疏性,导致全球健康模型难以准确刻画该地区的胆固醇水平演变轨迹。在构建过程中,主要挑战包括:确保从WHO OData API中提取的原始数据(如NumericValue字段)与显示字符串一致,避免浮点精度偏差;处理不同性别(SEX_BTSX、SEX_FMLE、SEX_MLE)及居住区域等亚维度带来的数据分层复杂性,需设计统一的过滤与聚合逻辑;同时,面对部分年份或国家置信区间缺失的情况,需在保留数据完整性的前提下,提供明确的缺失值标记以支持后续模型的稳健训练。
常用场景
经典使用场景
该数据集汇集了非洲46个国家1980至2018年间年龄标准化的平均总胆固醇水平观测值,是研究非洲大陆心血管代谢疾病流行病学变迁的宝贵资源。经典使用场景包括跨国家、跨时间维度的总胆固醇水平趋势分析,研究者可借此揭示不同性别、城乡地域等亚组间的血脂谱差异。通过机器学习回归任务,该数据能够辅助构建预测模型,探索社会经济、营养转型与胆固醇水平之间的潜在关联,为全球非传染性疾病负担研究提供非洲视角的关键实证。
衍生相关工作
基于该数据集,已衍生出多项关于非洲非传染性疾病风险因素时空建模的开创性工作。研究者利用其时间序列结构,开展了总胆固醇水平的贝叶斯分层回归与缺失值插补研究,并与血压、血糖等其他WHO指标数据联合分析,揭示了非洲各国心血管代谢风险的聚类特征。此外,该数据还被用于训练轻量级机器学习推理模型,旨在为数据稀缺的低收入国家提供近实时的健康指标推算工具,推动非洲健康数据科学从描述性统计向预测性分析转型。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区年龄标准化后平均总胆固醇水平的长期趋势分析(1980–2018),为全球非传染性疾病(NCDs)监测提供了关键性基础数据资源。在心血管疾病负担日益加重的非洲,研究者可借助该高颗粒度面板数据,结合机器学习模型(如时序预测与分类回归),探索饮食结构变迁、城市化进程与胆固醇代谢异常之间的深层关联。同时,该数据集的公开与标准化整理,正推动WHO全球健康观测站与HuggingFace生态的融合,有望催生更多聚焦非洲健康不平等的跨学科研究,助力实现联合国可持续发展目标(SDG 3.4)中关于降低NCDs过早死亡率的具体指标。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作