electricsheepafrica/africa-who-number-of-new-hiv-infections
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-new-hiv-infections
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含WHO GHO指标“新发HIV感染数量”(HIV_0000000026)在非洲国家的国家级观察数据,时间跨度为2000年至2024年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory OData API获取,并以Parquet文件形式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Number of new HIV infections" (`HIV_0000000026`) across African nations, spanning 2000–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区新发HIV感染病例数量这一关键公共卫生指标(指标代码HIV_0000000026)。数据覆盖2000年至2024年间42个非洲国家的年度观测值,总计1050条记录,全部限定于WHO非洲区域(ParentLocationCode='AFR')。原始API返回的数值字段(NumericValue)被直接提取并保留为浮点精度类型,同时收录了置信区间上下界(value_low, value_high)以供统计推断。所有信息以Parquet格式存储,采用统一的列式架构,便于机器学习流水线的直接调用。
特点
该数据集最鲜明的特色在于其高度结构化的设计与覆盖的广泛性。指标无子维度分层,每个国家-年份组合仅对应单一数值,避免了年龄或性别分层的复杂性,极大简化了时空趋势分析。42个非洲国家的长面板数据为跨区域比较提供了坚实基础。此外,数据集中不仅包含点估计值,还提供了完整的置信区间信息,这对于后续的不确定性量化与稳健性评估至关重要。最后,值显示字段(value_display)以标准字符串格式呈现结果,方便快速可视化与报告。
使用方法
借助HuggingFace的datasets库,用户可轻松加载该数据集:load_dataset("electricsheepafrica/africa-who-number-of-new-hiv-infections")返回一个包含“train”分割的Dataset对象,直接调用to_pandas()即可转换为数据框供下游分析。针对两性混合的全国层数据,可通过筛选dim1字段为特定后缀(如_BTSX)或缺失值来提取。按时间序列分析时,可依据country_iso3字段过滤特定国家(如KEN),并按year列排序。该设计支持多用途建模,无论是分类与回归任务,还是时间序列预测,均可无缝衔接。
背景与挑战
背景概述
在全球公共卫生领域,艾滋病(HIV)新发感染率的监测与建模是制定有效防控策略的核心环节。世界卫生组织(WHO)全球卫生观察站(GHO)作为权威数据源,长期跟踪各国HIV流行趋势,但其原始数据格式异构、维度不统一,限制了机器学习模型的直接应用。为此,Electric Sheep Africa团队于2024年整合了WHO GHO中非洲地区42个国家2000至2024年的新发HIV感染数据,构建了首个面向非洲的、统一模式的机器学习就绪数据集。该数据集聚焦于HIV_0000000026指标,以国家-年份为粒度,提供点估计值及置信区间,旨在降低非洲健康数据的使用门槛,推动数据驱动的流行病学预测与资源分配研究,对非洲区域HIV防控的精准化与智能化具有重要支撑价值。
当前挑战
该数据集所解决的领域问题聚焦于非洲HIV新发感染率的预测建模与时空分析。传统上,GHO数据以指标码为索引,混杂多维度分层(如性别、城乡),且原始值以字符串形式存储,导致模型训练时需大量清洗与重排,尤其在泛非洲尺度上,数据稀疏性与时变复杂性加剧了建模难度。在构建过程中,团队面临三大挑战:一是数据整合的异构性——不同年份与国家的记录在维度编码、缺失值处理上存在差异,需统一映射为标准模式;其二,置信区间的不完整性——部分观测未提供上下界,需在不引入偏差的前提下进行插补或标记;其三,数据质量的地域偏差——42国上报频率与精确度不一,低资源国家的数据缺失可能影响跨地区推断。这些挑战催生了精心设计的抽取-清洗-标准化流程,最终生成了1,050行高质量、可直接用于回归或分类任务的非洲HIV新发感染数据集。
常用场景
经典使用场景
在流行病学与全球健康研究领域,该数据集最经典的应用场景是对非洲各国艾滋病新发感染人数进行时序分析与趋势预测。研究人员可借助其涵盖2000年至2024年、覆盖42个非洲国家的结构化数据,构建回归模型或分类模型,以揭示新发感染率在时间维度上的演变规律与地域分布特征。数据集中提供的点估计值与置信区间,为开展精确的统计推断与假设检验奠定了坚实基础。
实际应用
在实际应用中,该数据集为公共卫生决策提供了精准的数据支撑。各国卫生部门与国际组织可基于新发感染人数的量化趋势,评估现有防控策略的有效性,并据此优化资源配置,例如在感染率居高不下的区域部署针对性干预措施。同时,数据中的置信区间信息有助于在不确定条件下进行风险预警,推动从被动响应向主动预防的转型,对实现非洲地区艾滋病终结目标具有现实促进意义。
衍生相关工作
围绕该数据集已衍生出一系列经典工作,涵盖了时空建模、传播动力学模拟与机器学习预测等多个方向。研究者常将其与人口变迁、经济发展等外源变量融合,构建混合效应模型以刻画感染率变化的非线性特征。此外,该数据也催生了针对特定亚群的深度分析,如基于性别与居住地类型的分层研究,以及利用置信区间进行贝叶斯推断的稳健建模方法,进一步拓展了传染病流行病学的方法论边界。
以上内容由遇见数据集搜集并总结生成



