electricsheepafrica/africa-who-reported-cases-of-urethral-discharge-among-men
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-reported-cases-of-urethral-discharge-among-men
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了世界卫生组织全球健康观察站(WHO GHO)指标“男性尿道分泌物报告病例数”(STI_URETHRAL_CASES_NUM)在非洲国家的国家级别观察数据,时间跨度为2013年至2023年。数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据仓库。数据直接从WHO全球健康观察站的OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自浮点精度字段NumericValue,而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖了37个非洲国家,总行数为194行,地区筛选条件为WHO AFRO(ParentLocationCode = AFR)。
This dataset contains country-level observations for the WHO GHO indicator "Reported cases of urethral discharge among men (number)" (STI_URETHRAL_CASES_NUM) across African nations, spanning 2013–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 37 African nations with a total of 194 rows, filtered by WHO AFRO region (ParentLocationCode = AFR).
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区男性尿道分泌物报告病例数这一核心指标。数据以Parquet文件格式重新封装,遵循统一的模式结构,所有数值均取自浮点精度的`NumericValue`字段,而非字符类型的显示字符串。同时,数据集中包含了置信区间的上下界(`value_low`和`value_high`),以提供更丰富的统计信息。数据覆盖了2013年至2023年间37个非洲国家的观测结果,总计194条记录,且严格限定于WHO非洲区域(AFR)。
特点
该数据集的显著特点在于其高度的结构化与标准化设计。每个观测值均包含指示符代码、国家ISO3代码、WHO区域、观测年份、数值估计及其置信区间等关键字段,并提供了格式化显示字符串与维度信息(如性别、居住区域类型)。数据无子维度分层,即每个国家与年份的组合对应单一数值,简化了分析流程。此外,数据集采用开源许可(CC BY 4.0),并整合于Electric Sheep Africa项目下,为机器学习应用提供了即用型、高质量的非洲健康数据资源。
使用方法
使用者可通过HuggingFace Datasets库便捷加载该数据集,例如使用`load_dataset`函数获取训练集并转换为Pandas DataFrame进行后续分析。针对不同分析需求,可通过过滤`dim1`字段筛选“两性”(Both-sexes)或国家层级的数据,例如排除存在性别分层的信息以聚焦于全国性数值。对于时间序列分析,可基于`country_iso3`字段(如`KEN`代表肯尼亚)提取特定国家数据,并按年份排序。数据集的统一模式与清晰列定义使其适用于分类与回归任务,且能无缝集成至机器学习工作流中。
背景与挑战
背景概述
性传播感染(STIs)在全球范围内构成重大公共卫生负担,尤其在撒哈拉以南非洲地区,由于医疗资源匮乏和监测体系薄弱,其真实流行率常被低估。尿道分泌物作为男性生殖道感染的典型症状,是性传播疾病监测的关键哨点指标。在此背景下,世界卫生组织(WHO)全球卫生观测站(GHO)于2023年发布了“非洲地区男性尿道分泌物报告病例数”数据集,由Electric Sheep Africa项目重新整理并托管于HuggingFace平台。该数据集涵盖2013至2023年间37个非洲国家的年度观测数据,旨在为流行病学建模、疾病负担评估及政策制定提供标准化、机器学习就绪的清洁数据源,推动了非洲地区性传播疾病监测数据的开放与复用。
当前挑战
该数据集所应对的核心领域挑战在于非洲大陆性传播感染监测数据的碎片化与不可比性。各国报告系统差异显著,病例定义标准不一,且数据缺失问题突出——194条记录仅覆盖37国,部分国家存在多年空白。构建过程中面临的主要技术挑战包括:从WHO GHO的OData API异构接口中提取标准化数值字段(NumericValue而非显示字符串),处理置信区间等辅助元数据的分层存储结构,以及消除因分层维度(如性别、居住区域类型)导致的重复行,以确保时间序列分析能够聚焦于全国性男性病例数据。此外,小样本量(n<1K)对统计推断和机器学习模型的稳健性提出了额外要求。
常用场景
经典使用场景
在非洲公共卫生与流行病学的研究领域,该数据集主要被用于构建时间序列预测模型与回归分析,以监测男性尿道分泌物报告病例数的年度波动趋势。凭借其横跨2013至2023年、覆盖37个非洲国家的纵向观测记录,研究者能够利用该数据集开展国家层面的疾病负担评估与时空分布建模。其简洁的表格结构——包含指示代码、国家代码、年份及数值——天然适配于经典的监督学习任务,尤其适用于预测未来病例数的回归问题,或基于历史阈值划分高发与低发年份的分类场景。数据集中附带的置信区间字段进一步支持了不确定性量化分析,为模型输出的可靠性提供了统计基础。
解决学术问题
该数据集解决了非洲地区男性尿道感染病例长期缺乏标准化、可机读统计数据的核心学术痛点。此前,由于各国内部报告体系不一且公开数据分散,学者难以进行跨国的系统比较与趋势分析。此数据集汇集了世界卫生组织全球卫生观察站的官方指标,统一清洗为Parquet格式的规范表格,消除了数据异构性障碍,使得跨国时间序列分析、传染病动力学建模以及健康政策效果评估成为可能。其深远意义在于为“同一个健康”框架下非洲性传播感染(STI)的流行规律研究提供了可靠的经验证据,助力揭示医疗资源分布不均与报告率差异之间的内在关联。
衍生相关工作
该数据集衍生了一系列聚焦于非洲STI时空建模与预测的学术工作。典型流派包括基于该数据集构建ARIMA与Prophet模型的短期病例数预测研究,以及利用梯度提升机(如XGBoost、LightGBM)探索社会经济协变量对报告率影响的回归分析。部分学者进一步将其与非洲其他WHO指标(如产前护理覆盖率、HIV患病率)进行多源融合,生成了用于STI风险分层的集成数据集。在方法学层面,数据集中置信区间字段的保留催生了面向公共卫生数据的概率预测与不确定性量化研究,推动了贝叶斯分层模型在有限样本场景下的应用创新。
以上内容由遇见数据集搜集并总结生成



