five

electricsheepafrica/africa-who-prevalence-of-diabetes-lencecrude

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-prevalence-of-diabetes-lencecrude
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标糖尿病粗患病率(NCD_DIABETES_PREVALENCE_CRUDE)在非洲国家的国家级观测数据,时间跨度为1990年至2022年。这是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO全球健康观察站OData API获取,并以一致的架构重新打包为Parquet文件。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator Prevalence of diabetes, crude (NCD_DIABETES_PREVALENCE_CRUDE) across African nations, spanning 1990–2022. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO Global Health Observatory)的OData API,经过系统化采集与规范化处理后,以Parquet文件格式重新封装,形成了具备一致模式且面向机器学习的非洲健康数据资源。数据集聚焦于“粗糖尿病患病率”(NCD_DIABETES_PREVALENCE_CRUDE)这一关键指标,涵盖了1990年至2022年间47个非洲国家的9,306条观测记录。在数据提取过程中,所有数值均取自高精度的浮点型字段NumericValue,而非展示字符串,并尽可能保留了置信区间上下界(value_low与value_high)。此外,数据集收录了性别、居住区类型等分层维度信息,每一种国家与年份的独特组合均以独立行形式呈现,便于研究者进行精细筛选或跨层汇总。
使用方法
用户可通过HuggingFace的datasets库便捷地加载该数据集,只需一行代码:load_dataset('electricsheepafrica/africa-who-prevalence-of-diabetes-lencecrude'),即可将数据转换为Pandas DataFrame以便进一步分析。为获取全国层面的总体患病率,建议对dim1字段进行过滤,筛选出以“_BTSX”结尾或为空的记录,从而排除特定分层的干扰。针对单一国家的时间序列研究,可按country_iso3字段(如“KEN”代表肯尼亚)筛选,并依据year字段排序,从而清晰呈现糖尿病患病率的演变趋势。此外,由于数据包含置信区间字段,研究者可在回归或分类建模时引入不确定性度量,提升模型评估的严谨性。
背景与挑战
背景概述
在全球化与流行病学转型的背景下,非传染性疾病已成为非洲大陆日益沉重的公共卫生负担,其中糖尿病因其高患病率与并发症风险备受关注。世界卫生组织(WHO)作为全球健康数据治理的核心机构,依托其全球卫生观察站(GHO)系统,长期监测各国糖尿病流行趋势。在此框架下,非洲糖尿病粗患病率数据集(africa-who-prevalence-of-diabetes-lencecrude)应运而生。该数据集由Electric Sheep Africa团队于2022年整理发布,覆盖1990至2022年间47个非洲国家的糖尿病粗患病率指标(代码NCD_DIABETES_PREVALENCE_CRUDE),包含9306条观测记录。其核心研究问题聚焦于量化非洲地区不同性别、时期与国家的糖尿病负担差异,为机器学习驱动的流行病学建模提供高质量结构化数据。借助CC BY 4.0许可协议,该数据集降低了非洲健康数据的获取门槛,对精准公共卫生政策制定及AI辅助糖尿病风险管理研究具有重要推动作用。
当前挑战
该数据集所面对的挑战首先体现在领域问题的复杂性上:糖尿病患病率受遗传、环境、生活方式等多重因素交织影响,且非洲地区医疗记录体系不健全,使得基于此类生态学数据的预测模型易受混杂变量干扰,难以厘清因果机制。其次,数据构建过程中面临显著挑战:原始WHO数据虽经标准化,但不同年份与国家间的监测覆盖能力差异悬殊,导致部分区域的缺失值比例偏高;指标的分层结构(如按性别与城乡类型划分)增加了数据整合的难度,在保持字段一致性的同时需确保亚组解析的准确性;此外,置信区间的存在虽增强了统计严谨性,但如何将其合理纳入机器学习流程以避免信息损失,也是实用化过程中的技术瓶颈。
常用场景
经典使用场景
该数据集汇集了1990年至2022年间47个非洲国家关于糖尿病粗患病率的官方统计指标,适用于健康指标的时间序列预测、跨国家对比分析以及公共卫生状态评估。依托世界卫生组织全球健康观察站的权威数据,研究者可借助该数据集构建回归模型,探索患病率随年份、性别及区域分布变化的演变规律,并在此基础上开展非传染性疾病负担的区域性评估。同时,该数据集高度结构化的格式和丰富的亚组维度(如性别分层信息)使其成为机器学习入门与中级建模实践中理想的表格数据源,覆盖分类和回归两类任务。
解决学术问题
该数据集为非洲大陆糖尿病流行病学研究提供了标准化、机器可读的纵向观测数据,有效解决了传统统计数据分散、不易整合的难题。在学术层面,它支持学者回答若干关键问题:糖尿病患病率在非洲不同国家之间是如何分布的?其长期趋势是否存在加速或平稳的特征?性别差异在何种程度上影响患病率的波动?通过对置信区间上下限字段的利用,研究者还可进行不确定性量化与统计推论的稳健性检验。该数据集的发布显著提升了非洲地区非传染性疾病研究的可重复性和数据可比性,为全球公共卫生政策的制定提供了坚实的实证基础。
实际应用
在实际应用层面,该数据集为国际卫生组织、非洲各国疾控中心及非政府组织提供了高效的数据驱动决策工具。公共卫生部门可借助该数据对糖尿病高发国家实施精准干预,并评估现行防控策略的中长期效果。医疗资源规划者可以将患病率预测模型与人口结构数据结合,优化胰岛素、降糖药物及健康教育资源的配置。此外,该数据集亦可嵌入智能云平台的数据管道,用于构建实时疾病监控仪表盘,助力基层医疗系统快速识别高风险区域,从而在资源有限的环境下提升应对效率。
数据集最近研究
最新研究方向
在全球非传染性疾病负担持续攀升的背景下,非洲大陆的糖尿病流行病学态势日益受到国际公共卫生领域的高度关注。该数据集聚焦于非洲47个国家1990年至2022年间粗糖尿病患病率的时序观测,为探究该区域糖尿病流行的时间演变规律、空间分异特征及性别差异等前沿议题提供了标准化、机器就绪的数据基础。结合世界卫生组织全球健康观测站的权威数据,研究者得以利用该数据集开展跨国的纵向比较分析,并进一步探索社会经济、环境及行为因素对患病率的影响机制。当前,基于此类精细化数据的模型预测与风险评估,已成为推动非洲糖尿病防控策略优化及卫生资源精准配置的重要支撑。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务