electricsheepafrica/africa-who-hepatitis-b-surface-antigen-carriers
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-hepatitis-b-surface-antigen-carriers
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家2015年至2020年间世界卫生组织全球健康观察站(WHO GHO)指标“乙型肝炎表面抗原(HBsAg)携带者(每10万人口)”的观测数据。数据来源于WHO GHO的OData API,并以Parquet文件格式重新打包,包含数值估计、置信区间、显示字符串等信息。数据集覆盖47个非洲国家,共188行数据,适用于表格分类和回归任务。
This dataset contains country-level observations for the WHO GHO indicator "Hepatitis B surface antigen (HBsAG) carriers (per 100 000 population)" (`HEPB_HBSAG_CARRIER`) across African nations, spanning 2015–2020. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区乙型肝炎表面抗原(HBsAg)携带率指标(每10万人口)。数据经过系统化重新打包,以Parquet格式存储并保持统一模式,所有数值均提取自精确浮点字段(NumericValue),而非显示字符串。覆盖2015至2020年间47个非洲国家的188条观测记录,并按WHO AFRO区域进行过滤。数据集中包含置信区间上下限(value_low, value_high),且支持按年龄组等维度进行分层分析,确保科研工作者能够灵活提取所需子集。
特点
该数据集具备高度的结构化与可复用性,提供包括国家ISO代码、年份、点估计值及其置信区间在内的核心字段。数据按指标代码、区域、维度类型(如性别、年龄组)等分类,便于多维度筛选与聚合。尤为重要的是,数据集已预先过滤为非洲区域,且覆盖多个时间节点,适用于纵向趋势分析与跨国家比较研究。此外,数据来源于权威的WHO GHO平台,并遵循CC BY 4.0许可协议,确保了学术研究的合规性与可靠性。
使用方法
用户可通过HuggingFace的datasets库轻松加载数据,使用`load_dataset`函数直接获取,并转换为Pandas DataFrame以便进一步分析。例如,可通过筛选`dim1`字段中的`BTSX`后缀或空值来获取两性及国家级别的数据,也可按`country_iso3`字段如`KEN`提取特定国家的时间序列。数据集支持按年龄组(如全部年龄或5岁以下)进行亚组分析,研究者可根据具体研究目标,通过`dim1`和`dim2`列灵活筛选所需维度,或汇总所有分层以获取总体估计值。
背景与挑战
背景概述
乙型肝炎病毒表面抗原(HBsAg)携带率是评估乙型肝炎疾病负担的关键流行病学指标,对于制定疫苗接种策略和公共卫生干预措施至关重要。该数据集由Electric Sheep Africa团队于2020年整理发布,源数据来自世界卫生组织(WHO)全球卫生观察站(GHO),覆盖2015至2020年间47个非洲国家的HBsAg携带率(每10万人口)。作为首个面向非洲区域的机器学习友好型乙型肝炎流行病学数据集,它填补了非洲大陆在精准公共卫生数据整合方面的空白,为疾病建模、健康政策评估及跨境传染病监测提供了标准化的数据基础,推动了循证决策在非洲地区的应用。
当前挑战
该数据集所解决的领域核心挑战在于非洲地区乙型肝炎流行病学数据的碎片化与不可比性,传统官方数据分散于不同年份、国家报告和分层统计中,难以直接用于跨时空的定量建模。在构建过程中,团队面临多项技术障碍:首先,WHO OData API原始返回值包含数值与显示字符串的混合字段,需严格提取浮点精度的NumericValue而非被格式化的展示文本;其次,数据按年龄组、性别和城乡居住地等维度分层,单一国家-年份组合可能对应多个行记录,需设计合理的聚合或筛选逻辑;此外,部分观测值缺少置信区间,导致模型不确定性估计存在盲区,而188条记录的小样本量也对高维特征的时序预测提出了过拟合挑战。
常用场景
经典使用场景
在非洲公共卫生监测与流行病学研究中,该数据集常被用于构建乙型肝炎表面抗原(HBsAg)携带率的时空分布模型。研究者可基于47个非洲国家2015至2020年间的年度观测数据,结合年龄分层(如全年龄段与五岁以下儿童)及性别维度,开展区域疾病负担的横断面比较或时间序列趋势分析。其结构化的表格化格式与数值型点估计值,使其成为机器学习时序预测、回归建模或空间统计推断的理想输入来源,尤其适用于评估撒哈拉以南非洲地区的HBsAg流行异质性。
衍生相关工作
该数据集作为Electric Sheep Africa统一数据谱系的一部分,已催生出多项衍生性研究工具与资源。例如,它被集成进非洲机器学习就绪汇编仓库,为训练区域特有的疾病负担预测模型提供基线特征;部分工作将其与人口迁徙、气候及社会经济变量进行多模态关联,探索乙肝传播的社会生态驱动因素。同时,其标准化的Parquet格式与一致的模式设计,降低了跨数据集的复用门槛,为后续构建如非洲大陆传染病风险图谱等复合型基准数据集奠定了方法和数据基础。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区乙型肝炎表面抗原携带率的监测与机器学习建模,为全球公共卫生领域提供了高价值的结构化时空数据。当前前沿方向集中于利用2015-2020年间47个非洲国家的纵向数据,结合WHO AFRO区域特征,探索在不同年龄分层(如全年龄与五岁以下儿童)和性别亚组中,HBsAg携带率的趋势预测与风险因子识别。数据集的置信区间字段为不确定性量化与稳健性评估提供了独特支撑,使其成为研究传染病空间流行病学、健康不平等性以及实现WHO消除病毒性肝炎目标的关键资源。通过统一的Parquet格式和标准化模式,该数据集加速了面向非洲大陆的机器学习研究,助力于构建可推广的预测模型,以指导疫苗接种策略和公共卫生资源优化配置。
以上内容由遇见数据集搜集并总结生成



