electricsheepafrica/africa-who-deaths-due-to-hivaids
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-deaths-due-to-hivaids
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家因HIV/AIDS导致的死亡人数(每10万人口)的国家级观察数据,时间跨度为2001年至2012年。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包。数据集还包括了置信区间边界(如果可用)以及其他维度信息,如国家代码、年份、数值估计等。
This dataset contains country-level observations for the WHO GHO indicator "Deaths due to HIV/AIDS (per 100 000 population)" (`WHS2_138`) across African nations, spanning 2001–2012. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区因HIV/AIDS导致的每10万人口死亡人数(指标代码WHS2_138)。数据以Parquet格式重新封装,保持了统一的模式结构,确保兼容性与机器学习就绪性。具体而言,所有数值均取自浮点数精度的NumericValue字段,而非显示字符串,同时收录了可信区间上下界(value_low和value_high),为不确定性量化提供支持。覆盖2001年至2012年间40个非洲国家的年度观测值,共计78条记录,且仅包括世界卫生组织非洲区域(ParentLocationCode = 'AFR')的国家,无额外子维度分层,每个国家-年份组合对应唯一数值。
特点
数据集在结构化设计上具有鲜明特点:首先,其字段划分细致,包含指示代码、国家ISO3代码、WHO区域、年份、数值核心点估计及置信区间,以及显示字符串和时间戳,充分保留了原始元数据。其次,维度字段(dim1_type与dim1)的存在允许用户按性别或居住地类型进行筛选,尽管该特定指标未启用分层,但模式的一致性为未来扩展提供了便利。此外,数据规模精巧(n<1K),且全部源于WHO官方开放数据,并经CC BY 4.0许可授权,确保了来源的权威性与可复现性。这种精炼的表格型数据集特别适合用于时序回归或分类任务,以及非洲公共卫生领域的健康指标分析。
使用方法
借助HuggingFace Datasets库,用户可通过一行代码加载该数据集:`load_dataset('electricsheepafrica/africa-who-deaths-due-to-hivaids')`,并利用返回的Pandas DataFrame进行分析。典型使用流程包括:首先过滤出全国层面且涵盖两性(Both-sexes)的数据,具体通过筛选dim1字段以'_BTSX'结尾或为空值的行来实现;随后可对特定国家(如肯尼亚,ISO3代码KEN)按年份排序以提取时间序列。数据集不包含子维度分层,因此可直接以value_numeric作为目标变量进行回归建模。对于存在置信区间的行,可结合value_low和value_high进行不确定性建模或区间预测。
背景与挑战
背景概述
艾滋病(HIV/AIDS)作为全球公共卫生领域的重大挑战,尤其在撒哈拉以南非洲地区造成了沉重的疾病负担。世界卫生组织(WHO)全球卫生观察站(GHO)持续监测各国因艾滋病导致的死亡率,以评估防控成效并指导资源分配。基于此,Electric Sheep Africa团队于近年整理并发布了名为“africa-who-deaths-due-to-hivaids”的数据集,该数据集汇集了2001年至2012年间40个非洲国家因艾滋病导致的每10万人口死亡率的官方统计数据,共包含78条观测记录。数据来源于WHO GHO的OData API,并以Parquet格式进行了标准化封装,便于机器学习任务直接使用。该数据集为研究非洲地区艾滋病死亡率的时空分布、评估干预措施效果以及构建预测模型提供了关键的基础数据支持,对推动该领域的定量研究具有重要价值。
当前挑战
该数据集所针对的核心领域问题是量化并追踪非洲地区艾滋病导致的死亡率变化趋势,以支持流行病学分析及卫生政策制定。然而,构建过程中面临多项挑战:首先,原始数据覆盖年份有限(2001–2012年),且样本量较小(仅78条记录),限制了长期趋势分析和复杂模型的训练;其次,数据仅包含国家层面的聚合值,缺乏年龄、性别等重要亚组的分层信息,可能导致对特定人群风险的估计偏差;此外,部分观测值缺乏置信区间,影响了数据的不确定性评估与可靠性判断。同时,不同国家间报告标准与数据质控的差异也增加了跨时空可比性的难度。这些挑战要求使用者审慎处理数据的稀疏性与异质性,并考虑结合其他来源以弥补信息缺口。
常用场景
经典使用场景
该数据集汇集了世界卫生组织全球卫生观察站(GHO)关于非洲国家因艾滋病死亡率的官方统计数据,覆盖2001至2012年间40个非洲国家的年度观测值。其经典使用场景集中在基于表格数据的分类与回归任务,如预测特定国家或年份的死亡率等级(分类)或估算因艾滋病死亡的精确人数(回归)。研究者常利用该数据集训练机器学习模型,以揭示非洲地区艾滋病死亡率的时空分布规律,并为公共卫生决策提供量化依据。
实际应用
在实际应用中,该数据集为国际卫生组织与非洲各国政府提供了精准的目标人群画像与资源分配依据。例如,在确定抗逆转录病毒治疗(ART)优先级时,决策者可依据该数据集中的死亡率高发区域分布,合理调配医疗资源并制定针对性干预策略。此外,该数据还广泛应用于非政府组织(NGO)的项目效果评估中,通过比对干预前后的死亡率变化,验证健康促进计划的实际成效,从而优化资金投放方向。
衍生相关工作
该数据集衍生出一系列相关研究工作,其中最引人瞩目的是基于时空统计模型对非洲艾滋病死亡率的预测与归因分析。例如,有学者利用该数据结合环境与社会经济变量(如人均GDP、受教育程度)构建贝叶斯层次模型,系统评估了不同国家艾滋病防控政策的实际效能。另外,该数据集还被整合进全球疾病负担(GBD)研究框架中,作为补充数据源参与构建非洲区域特有的死亡原因分布图谱,进一步丰富了全球流行病学知识库的维度与精度。
以上内容由遇见数据集搜集并总结生成



