electricsheepafrica/africa-who-men-who-have-sex-with-men-population-size-estimate
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-men-who-have-sex-with-men-population-size-estimate
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了世界卫生组织全球健康观察站(WHO GHO)关于非洲国家中与男性发生性关系的男性人口规模估计数(Men who have sex with men: Population size estimate (number),指标代码MSM_PSE_NUM)的国家级观察数据,时间跨度为2011年至2023年。数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory的OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集覆盖了41个非洲国家,总共有93行数据,地区筛选为WHO AFRO区域(ParentLocationCode = AFR)。
This dataset contains country-level observations for the WHO GHO indicator Men who have sex with men: Population size estimate (number) (MSM_PSE_NUM) across African nations, spanning 2011–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 41 African nations with a total of 93 rows, filtered by WHO AFRO region (ParentLocationCode = AFR).
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(GHO)的OData API,聚焦于非洲地区男男性行为者(MSM)人群规模估计这一关键健康指标。数据以国家为单位进行收集,覆盖2011年至2023年间41个非洲国家的93条观测记录,所有数值均采用浮点精度的NumericValue字段,并附带置信区间上下界。通过Parquet文件格式进行统一封装,最终整合至Electric Sheep Africa平台,形成一套结构一致、便于机器学习直接调用的标准化数据集。
特点
数据集专为非洲区域健康研究设计,具有高针对性,所有观测均来源于WHO非洲区域办事处(AFRO)。每条记录包含国家ISO代码、观测年份、数值估计及其置信区间等核心字段,同时保留显示字符串以便于人工核查。数据未进行分层切分,每个国家每年仅对应单一估值,避免了维度冗余,适合直接用于时间序列分析或回归建模。其简洁的表格化结构极大简化了预处理流程。
使用方法
用户可通过HuggingFace的datasets库直接加载该数据集,例如使用load_dataset函数获取训练集,并利用to_pandas方法转换为DataFrame进行后续分析。若需聚焦于全国层面的双性别人群估计,可对dim1字段进行过滤;针对特定国家如肯尼亚的时间序列研究,则可通过country_iso3字段筛选并按年份排序。数据集以CSV或Parquet格式导出,兼容多数Python数据分析与机器学习框架。
背景与挑战
背景概述
在全球公共卫生领域,针对特定高危人群的精准干预是遏制艾滋病疫情扩散的关键策略之一。世界卫生组织(WHO)通过全球卫生观察站(GHO)长期监测各类健康指标,其中男男性行为者(MSM)的人口规模估计(MSM_PSE_NUM)是评估HIV疾病负担、优化资源配置的基础性数据。该数据集由Electric Sheep Africa团队于2023年整理发布,聚焦非洲41个国家在2011至2023年间的观测记录,共计93条数据。其核心研究问题在于为机器学习驱动的公共卫生建模提供结构化、可直接使用的非洲MSM人口估计信息,从而推动精准防疫与政策制定。作为连接WHO官方开放数据与人工智能分析工具的重要桥梁,该数据集显著提升了稀缺健康统计数据的可获取性与可计算性,对非洲地区艾滋病防控工作具有深远影响力。
当前挑战
该数据集所解决的领域挑战在于,非洲地区MSM的人口规模估计长期面临数据稀疏、统计口径不统一及覆盖不全等问题,严重阻碍了针对该群体的精准健康干预与资源分配。构建过程中面临的挑战包括:全球GHO数据来源分散,原始OData接口需复杂的解析与清洗才能提取一致的数值型字段;不同国家与年份间的置信区间值(value_low, value_high)缺失情况不一,导致数据质量参差不齐;此外,数据量仅为93条,规模极小,容易在机器学习场景中引发过拟合风险,需要结合迁移学习或增强策略来提升模型泛化能力。
常用场景
经典使用场景
在非洲公共卫生与流行病学研究领域,该数据集是评估男男性行为者群体规模的关键统计资源。研究者常利用该数据集进行人口学特征分析,通过点估计值和置信区间,构建非洲各国男男性行为者数量的时空分布图谱。其经典使用场景包括纵向趋势分析,例如追踪2011至2023年间特定国家如肯尼亚或南非的群体规模变化,以及多国横向比较,揭示西非与东非地区在人口估计上的差异性。此外,数据集的规范化格式使其易于整合进机器学习模型,用于预测未观测年份的群体规模或填充数据稀疏区域的缺失值。
衍生相关工作
基于该数据集衍生了一系列重要的学术与政策研究工作。典型包括HIV传播动力学模型的参数校准研究,其中群体规模估计被用作易感人群基数;以及多指标综合指数构建工作,例如将男男性行为者人口比例与性病患病率、检测率等整合,形成脆弱性评估框架。在机器学习领域,有学者利用该数据集的时空特征,开发了预测非洲次国家区域群体规模的回归模型。WHO全球卫生观察站亦将其作为基准数据,支持《全球艾滋病监测报告》中关于关键人群的章节撰写。这些衍生工作共同强化了非洲性少数群体健康数据的系统性分析能力。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区男男性行为者(MSM)人口规模估计的时空演变与健康政策响应,是理解关键人群在HIV/AIDS流行病学中脆弱性的核心数据源。随着全球健康不平等议题的升温,尤其是WHO AFRO区域“三个95%”防治目标的推进,研究者利用该数据集开展跨国家十年期趋势分析,探究MSM人群规模与艾滋病防控干预覆盖率之间的动态关联。数据中蕴含的置信区间信息为建立贝叶斯层级模型提供了统计基础,助力削减低资源环境下的抽样偏倚。这一方向不仅服务于全球基金与盖茨基金会等机构的资源分配优化,更推动了边缘人群健康权益的数据正义进程,使精密流行病学建模在非洲公共卫生决策中落地生根。
以上内容由遇见数据集搜集并总结生成



