five

electricsheepafrica/africa-who-new-hiv-infections

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-new-hiv-infections
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲各国世界卫生组织全球健康观察指标“新发HIV感染(每1000名未感染人口)”(SDGHIV)的国家级观测数据,时间跨度为1990年至2024年。它是Electric Sheep Africa系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于世界卫生组织全球健康观察OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator "New HIV infections (per 1000 uninfected population)" (`SDGHIV`) across African nations, spanning 1990–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观测站(WHO GHO)的OData API,聚焦非洲地区,收录了1990年至2024年间42个非洲国家关于“每千名未感染人口中新增HIV感染数”这一关键指标的国家级观测数据。数据以Parquet文件格式重新封装,并构建了统一的模式,确保所有数值均源自浮点精度的NumericValue字段,同时保留了置信区间上下界(value_low、value_high)等统计信息。此外,数据集支持性别(SEX)等子维度分层,每个国家、年份与维度的独特组合均形成独立行,便于精细化分析。
特点
该数据集具有多维度和高完整性的显著特点。它覆盖了42个非洲国家的35年跨度,总计4410条记录,并按WHO AFRO区域进行了过滤。除了核心的感染率数值外,还提供了置信区间、格式化显示字符串、维度类型与维度值(如SEX_BTSX、SEX_FMLE)以及数据更新时间戳,极大丰富了分析层次。数据集采用CC BY 4.0许可协议,来源权威可靠,且以机器学习就绪的格式呈现,方便直接用于分类或回归任务。
使用方法
使用者可通过HuggingFace的datasets库轻松加载本数据集,例如使用load_dataset('electricsheepafrica/africa-who-new-hiv-infections')命令,随后调用to_pandas()将数据转化为DataFrame进行探索。在分析时,可通过过滤dim1字段筛选出两性合计(SEX_BTSX)或国家层面的数据,也可按国家ISO3代码提取时间序列,例如筛选country_iso3为'KEN'的数据并按年份排序,从而进行趋势分析或模型构建。
背景与挑战
背景概述
该数据集由Electric Sheep Africa整理,源自世界卫生组织(WHO)全球卫生观察站(GHO),聚焦非洲地区“每1000名未感染人口中的新发HIV感染数”(指标代码SDGHIV),时间跨度覆盖1990至2024年。作为一项整合性、机器学习就绪的非洲数据资源,它涵盖了42个非洲国家共计4410条观测记录,为研究非洲大陆HIV传播动态提供了标准化、高时间分辨率的量化基础。该数据集的发布显著推动了区域公共卫生领域的数据可获取性与分析一致性,尤其支持流行病学建模、政策评估及可持续发展目标(SDG)监测等相关研究,成为连接原始卫生统计数据与智能分析工具的关键桥梁。
当前挑战
该数据集所应对的领域挑战在于,非洲大陆HIV感染率的时空异质性极高,传统统计方法难以捕捉跨国、跨性别的精细传播模式,而现有数据多分散于不同报告,格式不一、缺失严重,制约了机器学习模型在此场景下的可靠训练。在构建过程中,主要困难包括:需从WHO OData API原始接口中提取并清洗非结构化数据,确保NumericValue字段的浮点精度并剔除显示字符串的干扰;同时需处理按性别(SEX)等维度分层产生的多行重复结构,以及置信区间上下限的缺失值问题,最终转化为统一Schema的Parquet格式,实现跨年份、跨国家的可比性与复用性。
常用场景
经典使用场景
该数据集汇聚了世界卫生组织全球卫生观察站关于非洲国家1990至2024年间每千名未感染人群中新增HIV感染病例的官方统计,覆盖42个非洲国家及性别、城乡等亚组维度。经典使用场景聚焦于时空流行病学建模,研究者可借助数值精准的感染率指标与置信区间,构建纵向预测模型或面板数据分析,揭示HIV传播在非洲大陆的时空动态演变规律,为公共卫生干预策略的制定提供量化基石。
解决学术问题
数据集核心解决了非洲区域HIV感染率时空异质性量化分析的瓶颈问题,填补了高分辨率、长时序亚组级官方数据的标准化缺口。学术上,它支撑研究者深入探究社会经济、政策干预、医疗资源分布等因素对感染率变化轨迹的影响机制,揭示性别间的不平等传播模式及城乡差异,从而推动精准流行病学与全球健康治理理论的发展,助力实现联合国可持续发展目标中关于终结艾滋病流行的具体指标。
衍生相关工作
该数据集衍生了多项前沿研究工作,其中最经典的包括:基于贝叶斯时空层次模型的非洲HIV感染率推估与不确定性量化研究、结合气象与流动数据预测感染率波动的机器学习框架,以及利用亚组分析揭示性别与年龄层内感染风险的差异化轨迹。此外,数据还推动了跨数据集融合研究,例如与WHO的艾滋病相关死亡率及抗逆转录病毒治疗覆盖率数据联用,构建综合性流行病学因果推断模型,深化对非洲艾滋病防控全链条的理解。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务