five

electricsheepafrica/africa-who-treatment-success-rate-hiv-positive-tb-cases

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-treatment-success-rate-hiv-positive-tb-cases
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标HIV阳性结核病病例的治疗成功率(TB_c_tbhiv_tsr)在非洲国家层面的观察数据,时间跨度为2004年至2023年。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖了45个非洲国家,总行数为530行,地区筛选为WHO AFRO(ParentLocationCode = AFR)。

This dataset contains country-level observations for the WHO GHO indicator Treatment success rate: HIV-positive TB cases (TB_c_tbhiv_tsr) across African nations, spanning 2004–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 45 African nations with a total of 530 rows, filtered by WHO AFRO region (ParentLocationCode = AFR).
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,专注于非洲地区HIV阳性结核病例的治疗成功率指标(TB_c_tbhiv_tsr)。数据经过系统化采集与结构化处理,以Parquet文件格式进行封装,并遵循统一的模式规范。所有数值均源自浮点精度的NumericValue字段,而非显示字符串,同时包含置信区间上下界信息。数据集覆盖2004至2023年间45个非洲国家的530条观测记录,每一行对应一个特定国家与年份的唯一组合,且仅包含单一维度的数值,未进行性别或年龄分层。
特点
该数据集以机器学习的友好性为设计核心,既适用于分类任务也适用于回归任务。其结构简洁清晰,包含指示代码、国家ISO代码、WHO区域、年份、核心数值目标、置信区间边界以及时间戳等关键字段。所有数据均限于WHO非洲区域,确保了地理聚焦的纯粹性。此外,数据集不包含子维度分层,每个国家与年份仅对应一个单一数值,大幅降低了数据处理的复杂度,便于快速整合与建模分析,尤其适合跨国家的时间序列预测与趋势研究。
使用方法
使用者可通过HuggingFace的datasets库直接加载数据集,只需调用load_dataset函数并指定数据集名称即可获取训练集。加载后的数据可便捷地转换为Pandas DataFrame,以便进行后续分析与建模。推荐通过过滤dim1字段中后缀为_BTSX或缺失值的行,提取仅包含两性混合的国家级数据。对于特定国家的时间序列分析,可按country_iso3字段筛选并结合year字段排序,实现高效的数据切片与可视化探索。
背景与挑战
背景概述
在世界卫生组织全球卫生观测站(WHO GHO)的框架下,结核病合并HIV感染的治疗成功率是评估公共卫生干预效果的关键指标。该数据集由Electric Sheep Africa于2024年前后整理发布,聚焦非洲地区2004至2023年间45个国家的HIV阳性结核病病例治疗成功率。其核心研究问题在于揭示非洲大陆在应对结核病与HIV双重疫情时的治疗效果差异,为机器学习驱动的健康政策优化提供结构化数据基础。该数据集填补了非洲区域跨年度、标准化治疗结果数据的空白,对推动精准医疗与流行病学建模具有重要价值。
当前挑战
该数据集所解决的领域问题在于结核病合并HIV感染治疗成功率的量化与泛化预测,其挑战包括数据稀疏性(仅530条记录)导致模型过拟合风险,以及置信区间缺失时的不确定性高。构建过程中面临的主要挑战是WHO GHO API数据提取与清洗的一致性维护,例如需要将NumericValue字段从显示字符串中分离,并处理不同国家间报告标准的差异。此外,子维度(如性别、居住地类型)的缺失和区域覆盖面不完整(仅限WHO AFRO区域)限制了模型对非洲全境治疗动态的泛化能力。
常用场景
经典使用场景
在非洲公共卫生与流行病学研究中,该数据集被广泛用于分析艾滋病病毒阳性结核病患者的治疗成功率,支持对区域疾病负担与干预成效的纵向评估。研究者可借助覆盖45个非洲国家、时间跨度达二十年的面板数据,构建时间序列模型或面板回归模型,以探寻治疗成功率的变化趋势及其与国家政策、医疗资源配置之间的关联。该数据集以机器可读的Parquet格式存储,包含点估计值及其置信区间,便于直接应用于分类与回归任务,为建模跨国家、跨年份的公共卫生指标提供了高质量、标准化的数据基础。
衍生相关工作
该案例数据集作为Electric Sheep Africa系列的一部分,已催生了多项衍生研究工作。其标准化的数据结构促进了跨数据集整合,研究者将其与非洲国家经济指标、医疗基础设施数据或气候数据关联,构建了多模态预测模型以揭示治疗成功率的多维度影响因素。此外,基于该时间序列数据集,有工作开发了先进的缺失值插补算法与异常检测框架,提升了在稀疏松散真实世界数据中进行可靠推断的能力。该数据集也被用于验证新兴的联邦学习框架在跨境公共卫生数据分析中的隐私保护效果,成为连接非洲实地数据与前沿人工智能方法论的重要桥梁。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区HIV阳性结核病例治疗成功率这一关键健康指标,其研究方向紧密围绕全球公共卫生领域的前沿动态。近年来,随着世界卫生组织(WHO)持续推动终结结核病战略和艾滋病防治目标,治疗成功率作为量化干预成效的核心指标,被广泛应用于评估各国在双重感染管理上的实际进展。该数据集涵盖2004至2023年间45个非洲国家的时序观测,为研究者提供了构建机器学习模型以预测疫情演化、识别高风险区域和优化资源配置的宝贵资源。特别是结合WHO全球卫生观察站数据,能够深入分析结核病与艾滋病协同治疗策略的区域异质性,以及不同社会经济发展水平下健康系统的韧性。这一整合性数据集不仅填补了非洲地区高质量、标准化健康数据的空白,也为实现联合国可持续发展目标(SDGs)中关于终结结核病流行的具体目标提供了数据驱动的科学支撑,激励跨学科研究者共同探索精准干预与政策评估的新路径。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务