five

electricsheepafrica/africa-who-mean-total-cholesterol-totalcholc

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-mean-total-cholesterol-totalcholc
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家1980年至2018年间WHO GHO指标Mean total cholesterol, crude的国家级观测数据。数据集来源于WHO Global Health Observatory OData API,并以Parquet文件形式重新打包,具有一致的架构。数据包括数值估计值、置信区间边界(如果可用)以及显示字符串。此外,数据集还涵盖了46个非洲国家,总行数为5,382行,并按性别等子维度进行分层。

This dataset contains country-level observations for the WHO GHO indicator Mean total cholesterol, crude across African nations, spanning 1980–2018. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,专注于非洲地区“平均总胆固醇(粗率)”这一健康指标。通过将原始API数据重新打包为Parquet格式,并采用统一的数据模式,确保数据的一致性与机器学习友好性。数据集涵盖了1980年至2018年间46个非洲国家的5382条观测记录,所有数值均直接取自浮点精度的NumericValue字段,而非格式化显示字符串,并附带了置信区间边界值(value_low与value_high),以支持更深入的统计分析。
特点
该数据集的核心特色在于其精细化的分层结构。指示器可按性别(SEX_BTSX、SEX_FMLE、SEX_MLE)等维度进行细分,每个国家、年份与维度的独特组合生成独立的观测行,便于研究者灵活筛选或聚合。数据以国家层面呈现,覆盖了WHO AFRO区域内的全部46个非洲国家,时间跨度长达39年,为长期趋势分析提供了坚实基础。此外,数据集中包含了完整的变量元信息,如指示器代码、区域代码及更新时间戳,极大提升了数据的可解释性与可追溯性。
使用方法
数据集可通过HuggingFace的datasets库轻松加载,使用load_dataset函数即可获取。加载后,用户可将其转换为Pandas DataFrame进行后续操作。针对特定分析需求,例如研究全国水平的两性数据,可通过筛选dim1字段中后缀为_BTSX的条目或排除分层维度;若需分析单一国家的时间序列,则对country_iso3字段进行过滤并按年份排序即可。这种设计使得数据能够便捷地应用于分类或回归任务,适用于公共健康研究中的建模与预测工作。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于近年整理发布,源自世界卫生组织全球卫生观测站(WHO GHO),聚焦非洲地区1980至2018年间人均总胆固醇(粗值)的宏观流行病学指标。作为非洲公共卫生数据统一化与机器学习就绪存储计划的一部分,该数据集囊括46个非洲国家、共计5382条观测记录,为研究非传染性疾病(NCDs)在非洲大陆的分布格局与演化趋势提供了标准化、结构化的数据基础。其发布填补了非洲区域心血管代谢风险因素高质量开放数据的空白,有力推动了基于数据驱动的全球健康不平等分析与政策制定。
当前挑战
该数据集所解决的领域核心挑战在于非洲大陆长期缺乏统一、机器可读且持续更新的非传染性疾病风险因素观测数据,传统来源多散落于各国报告或PDF文档中,难以进行跨时空比较与建模。构建过程中面临多重技术难题:需从WHO OData API异构接口高效抓取数据,统一不同时期、不同来源的编码体系(如性别分层标识、区域代号),处理多维度分层带来的重复记录与稀疏问题,并保留置信区间以支持不确定性量化分析。此外,数据覆盖时间跨度较长但部分早期年份存在缺失,给时间序列建模与因果推断带来了额外复杂性。
常用场景
经典使用场景
在非传染性疾病流行病学与公共卫生监测领域,非洲人群总胆固醇均值数据集被广泛用于构建时间序列预测模型与跨国家比较分析。研究者常借助该数据的分性别人群统计特性,结合世界卫生组织非洲区域46个国家在1980至2018年间的连续观测值,训练回归模型以描绘心血管代谢风险因子的长期演变轨迹。该数据集时空覆盖完整、置信区间完备,为多层次纵向研究提供了标准化的机器学习就绪输入。
实际应用
在实际应用中,该数据集能够支持国际卫生组织与非洲各国卫生部门开展慢性病防控策略的循证决策。公共卫生分析师可利用这一数据资源构建预警模型,识别胆固醇水平异常升高的高风险国家与人群亚组,从而优化有限医疗资源的配置。同时,该数据集也是营养政策评估与健康干预效果追踪中不可或缺的时间序列基线。
衍生相关工作
基于这一数据资源,衍生出一系列围绕非洲心血管代谢健康的经典工作,包括区域胆固醇水平的时空插值与向后预测研究、性别差异分解的分解回归分析,以及将胆固醇数据与血压、体重指数等指标联合建模的多变量风险评估工具。部分工作还将WHO GHO框架下的该指标整合进大型机器流行病学平台,推动了非洲公共健康数据的可复用性与可发现性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作