five

electricsheepafrica/africa-who-congenital-syphilis-number-of-cases

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-congenital-syphilis-number-of-cases
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标报告的先天性梅毒病例数(CaseCS)在非洲国家的国家级观察数据,时间跨度为2012年至2024年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory的OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator Congenital syphilis number of cases, reported (CaseCS) across African nations, spanning 2012–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区先天性梅毒报告病例数这一关键指标(指标代码CaseCS)。数据经过系统性采集与清洗,以Parquet文件格式存储,并遵循统一的数据模式。所有数值均取自浮点精度的NumericValue字段,而非显示字符串,以确保机器学习任务中的数值一致性。同时,数据集中包含了置信区间上下限(value_low和value_high),为不确定性量化提供了支持。该数据集由Electric Sheep Africa项目整理发布,旨在为非洲健康研究提供一份可直接用于机器学习建模的统一资源。
特点
该数据集覆盖2012至2024年间22个非洲国家的年度观测值,共计74条记录,聚焦于WHO AFRO区域。每个国家-年份组合对应单一数值,无额外子维度分层,这一简洁结构使其特别适合用于时间序列分析和面板数据建模。数据列设计清晰,包含国家ISO代码、年份、数值估计、置信区间及显示字符串等字段。由于原始数据为报告病例数,而非经过校正的发病率估算,因此适用于研究先天性梅毒在非洲地区的报告趋势、时空分布及其与卫生政策的相关性分析。
使用方法
用户可通过HuggingFace的datasets库直接加载该数据集,命令为load_dataset('electricsheepafrica/africa-who-congenital-syphilis-number-of-cases'),并轻松转换为Pandas DataFrame进行后续分析。若要获取全国层面的两性数据,可对dim1列进行筛选,选择以'_BTSX'结尾或空缺的行。对于特定国家的时间序列分析,可按ISO代码(如'KEN'代表肯尼亚)过滤并按年份排序。该数据集的简洁结构使其无需复杂预处理即可直接应用于回归、分类或时序预测任务,是非洲健康指标建模的理想起点。
背景与挑战
背景概述
先天性梅毒作为一种可通过母婴传播有效预防的感染性疾病,其病例监测数据是评估消除母婴传播进程的核心指标。该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)于2024年发布,经Electric Sheep Africa团队整理并标准化为机器学习就绪格式,聚焦于2012至2024年间非洲22个国家的先天性梅毒报告病例数。核心研究问题在于系统记录和量化非洲大陆先天性梅毒的流行病学负担,为区域公共卫生决策提供数据支持。该数据集作为首个以非洲为中心、统一结构的WHO先天性梅毒病例数据集,有望推动相关预测模型与因果推断研究的发展,进而提升疾病监测与干预资源的配置效率。
当前挑战
所解决的领域问题在于,既往非洲先天性梅毒数据分散于多源且格式不一,难以支持跨时序、跨国别的机器学习建模与流行病学趋势分析,亟需构建标准化、可复用的高质量数据集。构建过程中面临的挑战包括:原始API数据中、置信区间字段存在缺失,影响模型的概率校准与不确定性量化;数据仅涵盖22个国家,样本总量仅74条且时空稀疏,易导致过拟合与地域外推性不足;维度字段(如性别、城乡)分布不一,需人工设计聚合逻辑以提取全国性全性别观测值,增加了清洗复杂度。
常用场景
经典使用场景
在公共卫生与流行病学研究中,先天性梅毒病例数数据集为理解非洲区域母婴梅毒传播的时空分布提供了关键支撑。该数据集覆盖22个非洲国家2012至2024年的报告病例数,以国家-年粒度记录了确诊病例的点估计值及其置信区间,适用于构建纵向时间序列模型以追踪疾病负担的演变趋势。研究者常利用该数据训练回归模型预测感染率波动,或借助分类方法识别疫情高发国家与时段,从而揭示卫生资源分配与防控政策效果之间的关联。
实际应用
在实际应用中,该数据集赋能全球卫生机构与区域疾控中心开展动态监测与资源规划。非洲疾病预防控制中心可依据病例数的时间趋势预测未来感染负担,优先为高发国家部署产前筛查试剂与抗生素治疗包。世界卫生组织区域办事处利用置信区间指标评估数据质量,校正漏报偏倚,从而对各国实现先天性梅毒消除目标的进展进行分级督导。非政府组织亦可结合人口统计信息,设计精准的社区健康教育计划,阻断母婴传播链条。
衍生相关工作
该数据集衍生了一系列开创性工作:研究团队基于其构建了非洲先天性梅毒时空传播图谱,通过自回归模型揭示病例数在邻近国家间的扩散规律;后续工作引入多模态数据融合方法,将病例数据与孕产妇保健覆盖率、实验室诊断能力等指标联合分析,提升了对高漏报率地区的估算精度。此外,近期工作利用该数据集验证了机器学习模型在低资源环境下对罕见传染病预测的鲁棒性,推动了面向公共卫生决策的可解释AI工具的发展。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务