electricsheepafrica/africa-who-antenatal-care-attendees-who-were-positive-for-syphilis
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-antenatal-care-attendees-who-were-positive-for-syphilis
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2008年至2024年间,产前护理中梅毒阳性率的报告数据。数据来源于WHO Global Health Observatory,并以Parquet文件格式重新打包。数据集覆盖47个非洲国家,共362行数据,每行数据包括国家代码、年份、数值估计值、置信区间等信息。数据集是Electric Sheep Africa项目的一部分,旨在为机器学习提供统一的非洲数据资源。
This dataset contains country-level observations for the WHO GHO indicator "Antenatal care attendees who were positive for syphilis (%), reported" (`PercposANC`) across African nations, spanning 2008–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦非洲地区产前保健就诊者中梅毒阳性比例这一关键健康指标。通过对原始API返回的数值型字段进行精准提取与清洗,保留浮点精度的点估计值及其置信区间上下界。数据以Parquet格式重新封装,采用统一的Schema设计,涵盖国家ISO代码、年份、WHO区域及维度信息,确保多源异构数据呈现为结构化、机器学习的就绪形态。
特点
数据集涵盖了2008至2024年间47个非洲国家的362条观测记录,是区域内该主题下规模最大、时间跨度最广的汇编之一。其突出特性在于保留了完整的分层维度字段,允许按性别、居住地类型等亚组进行精确筛选,同时提供置信区间信息以支持不确定性量化。数据无子维度,每个国家-年份组合仅对应单一数值,简洁高效,适合直接用于回归或分类任务。
使用方法
借助HuggingFace Datasets库,用户可通过一行代码加载数据集并将其快速转换为Pandas DataFrame。典型应用场景包括按性别过滤以获得全国层面的分析,或按国家与年份排序以构建时间序列数据。由于Schema规范且缺失值处理透明,研究人员可直接将`value_numeric`作为监督学习的目标变量,结合`year`、`country_iso3`等特征开展跨国的趋势建模与预测工作。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)创建,并由Electric Sheep Africa团队重新整理,于2024年发布在HuggingFace平台上。核心研究问题聚焦于非洲地区产前保健就诊者中梅毒阳性率的监测与趋势分析,覆盖2008年至2024年间47个非洲国家的362条观测数据。作为一项重要的公共卫生指标,该数据集为母婴健康干预策略的制定提供了关键依据,对非洲区域梅毒防控政策的评估与优化具有深远影响力。
当前挑战
该数据集所解决的领域问题在于,非洲地区梅毒筛查数据长期分散、标准不一,导致难以进行跨国的系统性分析,而该数据集通过统一结构与标准化的指标(PercposANC)填补了这一空白。构建过程中面临的挑战包括:从WHO OData API中提取大量异构数据时需确保数值精度(仅使用NumericValue字段而非显示字符串),整合多国、多年份的稀疏观测值(n<1K),以及处理置信区间缺失与亚维度缺失(无分层维度)带来的分析局限性。
常用场景
经典使用场景
该数据集聚焦于非洲地区产前保健就诊者中梅毒阳性比例的监测指标,覆盖47个非洲国家长达十六年(2008-2024年)的年度观测数据。其经典使用场景在于开展跨国家、跨时间序列的梅毒流行率趋势分析,研究人员可借助该数据集追踪非洲大陆梅毒感染在孕产妇群体中的动态变化,识别高流行国家与疫情波动模式,为全球卫生治理中的疾病消灭目标提供基础数据支撑。
实际应用
在实际应用领域,该数据集是公共卫生决策与资源配置的重要参考依据。各国卫生部门可利用该指标监测国家消除梅毒母婴传播的进展,评估产前筛查与治疗覆盖率的实际成效;国际组织和资助方则可据此识别高负担国家并优化援助优先级。此外,该数据集还能与大范围流行病学模型或经济学分析相结合,为制定区域防控策略、提升孕产妇健康服务水平提供量化支撑。
衍生相关工作
围绕这一数据源,学术界已衍生出多项标志性研究。世界卫生组织每年发布的《全球卫生观察报告》中有关性传播感染与消除艾滋病、梅毒母婴传播的章节便高度依赖此类指标数据。相关研究还催生了非洲区域疾病负担评估模型、母婴健康干预效果的时间序列分析,以及基于机器学习的卫生资源缺口预测工作,成为连接原始监测数据与全球健康决策之间的重要桥梁。
以上内容由遇见数据集搜集并总结生成



