electricsheepafrica/africa-who-number-of-people-dying-from-hiv-related-causes
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-people-dying-from-hiv-related-causes
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标因HIV相关原因死亡的人数(HIV_0000000006)在非洲各国的国家层面观察数据,时间跨度为2000年至2024年。它是Electric Sheep Africa系列的一部分,这是一个统一、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory的OData API,并以Parquet文件形式重新打包,具有一致的架构。所有数值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator Number of people dying from HIV-related causes (HIV_0000000006) across African nations, spanning 2000–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源于世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲国家因HIV相关原因死亡人数的统计指标(代码HIV_0000000006)。原始数据经系统化采集后,被重新整理为具有统一模式的Parquet文件,其中数值型字段直接采用浮点精度的“NumericValue”而非显示字符串。对于存在置信区间的观测,数据集中一并纳入了上下界值(value_low与value_high)。数据集覆盖了43个非洲国家2000至2024年间的1,075条记录,所有条目均限定于WHO非洲区域(AFR)。
使用方法
用户可通过HuggingFace的datasets库轻松加载该数据集:调用load_dataset('electricsheepafrica/africa-who-number-of-people-dying-from-hiv-related-causes')即可获取训练集,并可直接转换为pandas DataFrame进行后续操作。若需聚焦于全国层面且不分性别的数据,可对dim1字段进行筛选(如以“_BTSX”结尾或缺失值)。对于特定国家的时间序列分析,则可通过country_iso3列进行过滤并按年份排序。这种设计使得数据加载、筛选与建模流程极为顺畅。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2024年整理发布,源自世界卫生组织(WHO)全球卫生观察站(GHO)的开放数据接口,聚焦于非洲地区因艾滋病相关原因死亡的人数指标(HIV_0000000006)。作为一套面向机器学习应用的数据产品,它覆盖了43个非洲国家2000至2024年间的时间序列观测值,总计1075条记录。这一数据集的核心价值在于将分散的官方卫生统计信息标准化、结构化,并以Parquet格式提供,从而降低数据获取与预处理门槛,服务于非洲区域的流行病学研究、公共卫生政策评估以及预测建模等任务。其对机器学习社区的影响力体现在填补了高质量非洲卫生数据集相对匮乏的空白,并为跨国家、跨时间维度的艾滋病死亡率趋势分析提供了可复用的基准资源。
当前挑战
从领域问题角度看,该数据集致力于应对艾滋病死亡率区域监测与建模中数据稀疏性、异质性和缺失值带来的挑战。不同国家间的报告制度、统计口径和更新频率差异显著,这使得构建稳健的泛化模型面临困难。在构建过程中,主要挑战包括:一是原始WHO OData API返回的字段结构繁杂,需清洗并统一提取核心数值信息(如NumericValue),同时保留置信区间等辅助信息;二是数据缺乏按性别、居住地类型等维度划分的完整分层,部分年份或国家观测缺失,影响了时间序列完整性;三是跨数据源整合时需确保国家代码、区域标签等元数据的一致性,为后续自动化的机器学习流水线部署增添了复杂性。
常用场景
经典使用场景
在公共卫生与流行病学研究中,非洲地区因HIV相关原因死亡人数的时间序列数据是评估疾病负担与干预效果的核心资源。该数据集涵盖了2000至2024年间43个非洲国家的年度观测值,为研究者提供了标准化的数值型统计量及其置信区间。其经典应用在于构建纵向回归模型或分类模型,用以预测HIV相关死亡趋势,或识别高负担国家与年份之间的模式差异。数据集以Parquet格式存储且结构一致,便于直接集成于机器学习流水线,尤其适合用于监督学习任务中对死亡人数的回归预测或基于阈值的风险等级分类。
解决学术问题
该数据集直面非洲地区HIV相关死亡率监测数据碎片化与格式不统一的学术瓶颈。传统上,研究者需从WHO全球卫生观察站逐个提取并清洗指标数据,过程繁琐且易出错。此数据集通过统一schema、保留置信区间并剔除字符串显示值,显著降低了数据预处理的负担。它解决了跨国比较分析中因数据口径不一致导致的偏差问题,使得统计建模、因果推断以及时空流行病学研究得以更可靠地展开。其意义在于为探索抗逆转录病毒治疗覆盖率、母婴传播干预效果等公共卫生政策的实际影响,提供了稳健的量化基础,推动了非洲区域HIV研究的可复现性。
实际应用
在实际应用中,该数据集可服务于国际卫生组织、非洲各国疾控部门及非政府组织的决策支持系统。例如,公共卫生官员可利用其时间序列数据评估不同国家在落实联合国艾滋病规划署“90-90-90”目标后的死亡人数变化,从而动态调整资源分配策略。此外,数据集中包含的上下置信区间可被用于构建风险预警模型,帮助识别可能因疫情反弹或医疗系统崩溃而导致死亡激增的国家。机器学习工程师亦可基于此数据集开发预测性算法,嵌入实时监测平台,以实现对HIV应对成效的自动化评估与可视化报告。
数据集最近研究
最新研究方向
在全球公共卫生监测体系中,非洲地区HIV相关死亡人数的时间序列数据正成为流行病学建模与机器学习交叉领域的前沿研究对象。该数据集整合了世界卫生组织全球卫生观察站的官方指标,覆盖43个非洲国家2000至2024年的年度观测值,为量化抗逆转录病毒疗法普及效果、评估区域卫生政策干预成效提供了关键的数值锚点。当前研究热点集中于利用该面板数据构建贝叶斯时空模型与梯度提升回归模型,以预测死亡率的异质性演变轨迹,并识别影响死亡率下降速率的结构性因素。结合近年来全球基金对非洲艾滋病防控的持续投入以及联合国‘95-95-95’目标推进过程中的实施瓶颈,该数据集被用于验证统计模型对真实世界政策拐点的捕捉能力,其置信区间字段尤为适合开展不确定性量化分析。这一资源不仅填补了非洲大陆高质量、结构化卫生开放数据的缺口,更为实现可持续发展目标中关于终结艾滋病流行的具体指标提供了可复现的机器学习基准。
以上内容由遇见数据集搜集并总结生成



