electricsheepafrica/africa-who-congenital-syphilis-rate-per-100-000-live-births
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-congenital-syphilis-rate-per-100-000-live-births
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标每10万活产儿中先天性梅毒报告率(RateCS)在非洲国家的国家级观测数据,时间跨度为2012年至2024年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖22个非洲国家,共73行数据,地区筛选为WHO AFRO(ParentLocationCode = AFR)。
This dataset contains country-level observations for the WHO GHO indicator Congenital syphilis rate per 100 000 live births, reported (RateCS) across African nations, spanning 2012–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 22 African nations with a total of 73 rows, and the region filter is WHO AFRO (ParentLocationCode = AFR).
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区先天性梅毒发病率(每10万例活产中的报告病例数)这一关键健康指标。数据涵盖了2012至2024年间22个非洲国家的73条观测记录,所有数值均来自API返回的浮点型字段NumericValue,而非显示字符串。构建过程中,数据集被统一转化为Parquet格式,并按照一致的Schema进行整理,同时保留了置信区间上下界(value_low、value_high)等辅助信息,以支持更深入的统计分析。
特点
该数据集具备多重显著特点。首先,其粒度精确到国家-年份层面,每条记录代表特定国家在给定年份的先天性梅毒发病率点估计值,并附带置信区间,便于评估统计不确定性。其次,数据集来自权威WHO GHO平台,且仅筛选WHO AFRO区域(ParentLocationCode = 'AFR')的非洲国家数据,确保了地域聚焦与数据可靠性。此外,尽管该指标无子维度分层(单一值每国家/年份),但Schema设计已预留dim1、dim2字段,可为未来可能出现的分层数据提供兼容性,体现了前瞻性的数据建模思路。
使用方法
数据集使用方法极为简便,依托HuggingFace的datasets库即可快速加载。用户可通过`load_dataset`函数获取数据,并直接转换为Pandas DataFrame进行分析。典型操作包括:利用`dim1`字段过滤出全国层面、两性合并的数据(如以`_BTSX`结尾或为空的值),以获取宏观趋势;或按`country_iso3`和`year`字段进行排序与筛选,提取特定国家的时间序列。无论是用于分类任务中的标签构建,还是回归任务中的连续值预测,该数据集均能作为非洲地区性病防控研究的可靠数据源。
背景与挑战
背景概述
先天性梅毒作为一种可通过母婴传播有效预防的感染性疾病,其发病率是衡量全球妇幼健康水平及卫生系统效能的重要指标。世界卫生组织全球卫生观测站自2012年起系统收集并发布了非洲区域各国每10万活产儿中先天性梅毒报告病例数,该数据集由Electric Sheep Africa团队于2024年整理并发布在HuggingFace平台,涵盖22个非洲国家2012至2024年间的73条观测记录。这一精心构建的机器学习就绪数据集,为探讨非洲地区先天性梅毒流行病学特征、评估干预措施成效以及推动数据驱动型健康政策制定提供了宝贵的结构化资料。
当前挑战
该数据集所应对的领域挑战在于,先天性梅毒在非洲许多地区仍属被忽视的健康问题,存在诊断不足、报告不全等系统性障碍,使得准确的发病率估算面临巨大困难。在构建过程中,团队需从WHO GHO OData API提取并清洗数据,处理不同国家间报告标准的异质性、缺失值以及置信区间信息的整合问题。此外,仅22国73条记录的小样本量对机器学习模型的可泛化性提出了严峻考验,并限制了基于地域或时间因素的深入分层分析,亟需通过迁移学习或外部验证等手段来弥补数据稀疏性带来的统计推断局限。
常用场景
经典使用场景
该数据集聚焦于非洲国家先天性梅毒发病率(每10万活产儿)的监测与建模,涵盖2012至2024年间22个WHO非洲区域成员国的官方记录。其经典应用场景在于构建时间序列预测模型,通过整合国家层面的年度发病率数值及置信区间,实现对非洲大陆先天性梅毒流行趋势的量化追踪。研究者可借助该数据训练回归或分类模型,揭示高负担国家与低负担国家之间的流行病学差异,并评估干预措施在时间轴上的有效性。数据以Parquet格式提供,支持直接加载至机器学习管道,便于与地理、人口等辅助变量融合,深化对非洲区域性传染病传播机制的理解。
衍生相关工作
该数据集衍生了多项经典学术工作,包括基于非洲多国面板数据的空间流行病学研究,通过时空自相关模型揭示先天性梅毒发病率与孕期保健覆盖率、抗梅毒药物可及性之间的关联。部分研究将本数据与WHO同期发布的艾滋病、乙肝母婴传播率指标联合分析,构建了综合性母婴传播疾病风险预测框架。此外,该数据集被用于训练轻量级机器学习模型(如随机森林、XGBoost),以低成本实现低资源国家先天性梅毒发病率的短期预测,推动了从描述性统计向预测性公共卫生研究的范式跃迁。其标准化架构也为其他区域性疾病数据集(如非洲疟疾发病率数据集)的构建提供了可复制的模板。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区先天性梅毒发病率这一关键公共卫生指标,为机器学习驱动的母婴健康监测开辟了全新路径。当前前沿方向集中于利用时空建模技术,结合2012至2024年间22个非洲国家的纵向数据,精准预测疾病传播趋势,并探索与社会经济、医疗可及性等协变量的交互效应。在消除母婴传播(EMTCT)全球倡议背景下,该数据集为评估干预措施效果、识别高风险区域提供了量化基础,尤其在WHO非洲区域资源匮乏地区,其结构化的置信区间字段使不确定性建模成为可能,推动稳健性预测研究。这一资源不仅强化了数据驱动决策在遏制先天梅毒这一被忽视的热带病中的角色,更助力实现联合国可持续发展目标中健康福祉的精准化监测。
以上内容由遇见数据集搜集并总结生成



