five

electricsheepafrica/africa-who-men-who-have-sex-with-men-syphilis-prevalence

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-men-who-have-sex-with-men-syphilis-prevalence
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标男男性行为者梅毒患病率(百分比)(MSM_SYPHILISPREV_PERCENT)在非洲国家的国家级观测数据,时间跨度为2011年至2023年。它是Electric Sheep Africa项目的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来自WHO全球健康观察站OData API,并重新打包为具有一致模式的Parquet文件。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,包含置信区间边界(value_low,value_high)。数据集覆盖29个非洲国家,共42行数据,区域筛选为WHO非洲区域(AFR)。

This dataset contains country-level observations for the WHO GHO indicator Men who have sex with men: Syphilis prevalence (percent) (MSM_SYPHILISPREV_PERCENT) across African nations, spanning 2011–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 29 African countries with 42 total rows, filtered to the WHO AFRO region (ParentLocationCode = AFR).
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦非洲地区男男性行为者(MSM)的梅毒患病率指标(MSM_SYPHILISPREV_PERCENT),涵盖2011至2023年间29个非洲国家的42条观测记录。数据以Parquet格式重新封装,仅保留浮点精度的数值字段(NumericValue)作为核心变量,并附有置信区间边界(value_low, value_high)。每个观测对应单一国家与年份的组合,无额外分层维度,从而确保数据结构简洁且直接适用于机器学习建模。
特点
该数据集最显著的特征是其高度针对性与地域聚焦性,专门记录非洲大陆MSM群体的梅毒患病率,为公共卫生领域的精细化研究提供稀缺数据。其核心指标采用浮点数精确表示,并附带置信区间,便于不确定性量化。数据集规模小巧(不足1000行),但覆盖29国与十余年跨度,具备良好的时空代表性。此外,统一的列式Schema设计(如国家代码、年份、数值字段)使得数据兼容性强,易于集成至多指标分析框架中。
使用方法
使用该数据集时,首先通过HuggingFace的datasets库加载,调用load_dataset函数即可获取可直接转换为Pandas DataFrame的训练集。若需关注全国层面且不分性别的数据,可通过筛选dim1字段中缺失值或包含'_BTSX'后缀的行实现。对于时间序列分析,可按country_iso3字段筛选特定国家,并依年份排序。数据集适合用于回归任务(预测患病率)、分类任务(如高/低风险分类)或时空趋势可视化,同时支持结合置信区间进行统计推断。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)创建,并由 Electric Sheep Africa 团队整合为机器学习友好的格式,专注于非洲地区男男性行为者(MSM)中梅毒患病率这一关键公共卫生指标。数据集覆盖 2011 至 2023 年间 29 个非洲国家,共 42 条国别年份观测记录,旨在为流行病学建模、区域健康不平等分析及政策制定提供标准化、可复用的量化基础。作为首个聚焦非洲 MSM 梅毒患病率的开源结构化数据集,它填补了该领域细粒度数据长期缺失的空白,推动了资源匮乏地区性传播疾病监测的数字化与可分析性。
当前挑战
该数据集所应对的领域核心挑战在于,非洲 MSM 群体因社会污名化与法律限制,传统监测体系难以获取可靠患病率数据,导致区域疾病负担被系统性低估,进而阻碍针对性干预措施的设计与评估。构建过程中,数据集面临了多重技术障碍:跨时间、跨国别的数据来源分散于 WHO 不同报告系统,需统一解析与清洗;原始数据置信区间字段存在大量缺失,增加了统计推断的不确定性;因人口基数小与汇报不完整,样本总量仅 42 条,极易引发模型过拟合,对时空建模与泛化能力构成严峻考验。
常用场景
经典使用场景
该数据集聚焦于非洲地区男男性行为者中梅毒患病率的监测数据,覆盖2011至2023年间29个非洲国家的国家层面观测值。在流行病学与公共卫生领域,研究者常将其作为构建时空统计模型的基石,用于量化梅毒在特定高风险群体中的流行趋势与地理分布差异。数据集的简洁结构——每行对应单一国家与年份的患病率点估计及置信区间——使其特别适合执行纵向分析、区域间对比以及健康不平等度量研究。
衍生相关工作
围绕该数据集已衍生出一系列重要学术工作,包括利用时空贝叶斯模型对非洲大陆梅毒患病率进行插值与预测的研究,以及将梅毒流行数据与HIV传播数据进行联合分析以揭示共病机制的综合性探索。基于此数据集的基准,研究者开发了用于评估卫生系统脆弱性的指数,并催生了探讨法律与社会歧视对高危人群健康结果影响的计量经济学论文。此外,它亦作为验证数据标准化与迁移学习技术在稀缺健康数据场景下表现的标准测试平台。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区男男性行为者梅毒患病率的时空分布及其在公共卫生监测中的应用。作为世界卫生组织全球卫生观察站的关键指标,该数据揭示了2011至2023年间29个非洲国家的疾病负担,为流行病学建模、健康不平等分析以及传染病干预策略的优化提供了量化基础。特别是在精准医学与全球健康交叉的前沿,此类数据正驱动着基于机器学习的疾病风险预测和资源分配决策,其重要性随着非洲大陆加速推进基于证据的公共卫生政策制定而日益凸显。该数据集的开放获取特性,更是促进了跨学科研究者对于性传播疾病在高危群体中的动态监测与干预效果评估。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务