five

electricsheepafrica/africa-who-hepatitis-b-surface-antigen-prevalence

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-hepatitis-b-surface-antigen-prevalence
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标乙型肝炎表面抗原(HBsAg)流行率(%)(`SDGHEPHBSAGPRV`)在非洲国家的国家级观察数据,时间跨度为2015年至2020年。它是[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。

This dataset contains country-level observations for the WHO GHO indicator Hepatitis B surface antigen (HBsAg) prevalence (%) (`SDGHEPHBSAGPRV`) across African nations, spanning 2015–2020. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的官方OData API,聚焦于非洲地区乙型肝炎表面抗原(HBsAg)流行率这一关键公共卫生指标。原始数据经由Electric Sheep Africa项目进行系统性清洗与重构,转化为具备统一架构的Parquet格式文件,以确保机器学习应用的即用性。数据集覆盖2015至2020年间47个非洲国家的观测值,共计188条记录,所有数值均来源于API返回的浮点精度字段NumericValue,而非显示字符串。对于存在置信区间的数据点,数据集同时收录了上下限值(value_low与value_high),为不确定性量化提供支持。此外,指标按年龄组等维度进行分层,每个国家、年份与维度的独特组合生成独立行,便于精细筛选。
特点
该数据集的核心优势在于其结构化与多维性。首先,它提供统一的字段模式,包括指示代码、国家ISO3代码、年份、点估计值及置信区间,确保跨分析场景的一致性。其次,数据集包含完整的维度信息(如年龄组、性别、居住区域),通过dim1与dim2字段标示,允许用户精准提取特定亚群的数据,如仅针对全年龄段或五岁以下儿童的流行率。再者,所有数据点均附有最后更新时间戳,保障了数据的时效性与可追溯性。最后,数据集采用了CC BY 4.0开放许可协议,源自WHO官方发布,兼具权威性与可复现性,非常适合作为疾病负担建模、流行病学趋势分析或可持续发展目标监测的基础资源。
使用方法
使用者可通过HuggingFace的datasets库轻松加载数据集,执行`load_dataset("electricsheepafrica/africa-who-hepatitis-b-surface-antigen-prevalence")`即可获取训练集格式的表格数据,并转换为Pandas DataFrame进行后续操作。推荐针对特定分析任务进行过滤:若要研究国家层面总体情况,可筛选dim1字段以`_BTSX`结尾或为空的行,以排除性别人群细分;若需构建时间序列,则按country_iso3与year字段排序。此外,对于包含分层信息的数据,用户可通过聚合不同维度下的值来计算整体流行率,或直接利用置信区间字段进行误差分析,从而灵活适配回归或分类等不同机器学习任务。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2023年基于世界卫生组织全球卫生观察站(WHO GHO)的开放数据重新整理发布,聚焦非洲地区乙型肝炎表面抗原(HBsAg)流行率这一关键健康指标。乙型肝炎是全球重大公共卫生问题,尤其在非洲大陆,其疾病负担沉重但高质量监测数据长期匮乏。数据集覆盖2015至2020年间47个非洲国家的188条国家级观测记录,并提供了按年龄组别(如全年龄与五岁以下儿童)分层的数据结构,为机器学习驱动的流行病学建模、卫生政策评估及可持续发展目标(SDG 3.3)的量化追踪提供了标准化、可复用的数据基础。作为Electric Sheep Africa统一非洲数据集合的重要组成部分,该资源填补了该地区在肝炎血清流行病学领域缺乏机器就绪(ML-ready)结构化数据集的空白,有力推动了数据驱动的非洲健康研究。
当前挑战
该数据集所应对的领域核心挑战在于非洲地区乙型肝炎流行病学数据的碎片化与不可比性:各国监测体系差异显著,年龄、性别等关键分层变量常被忽视,导致难以开展跨国家、跨时间的统一分析。数据集本身亦面临构建过程中的多重挑战,包括从WHO API中提取原始数据时的格式转换与缺失值处理,特别是置信区间边界(value_low与value_high)的不完整问题;同时,由于指标按亚组(如年龄、居住地类型)细分后产生了大量冗余行记录,需要设计清晰的过滤逻辑以提取全国层面的汇总估计值。此外,时间跨度的有限性(仅覆盖六年)和样本量较小(不足千条)对时空预测模型的泛化能力构成了显著制约。
常用场景
经典使用场景
该数据集的核心应用场景在于追踪非洲地区乙型肝炎表面抗原(HBsAg)阳性率的时空演变规律。通过集成世界卫生组织全球卫生观察站(WHO GHO)的官方数据,它涵盖2015至2020年间47个非洲国家的年度流行率估算值,并包含置信区间等质量指标。研究者可借助该数据集构建回归模型或时序预测模型,例如利用随机森林或梯度提升机来捕捉人口学特征与感染风险之间的非线性关系,从而揭示乙型肝炎在非洲大陆的流行格局与动态变化。
解决学术问题
该数据集旨在解决非洲乙型肝炎流行病学研究中长期存在的数据碎片化与标准不一的问题。通过整合WHO官方发布的权威指标,它弥补了非洲地区高分辨率、跨国家同步监测数据的缺失,使得量化分析区域内HBsAg流行率的时空差异成为可能。这有助于学术界深入探讨社会经济因素、免疫覆盖率与疾病负担之间的关联,并为验证全球消除病毒性肝炎目标的区域进展提供依据,从而推动循证公共卫生决策的科学化。
衍生相关工作
围绕该数据集已衍生出多项基础性工作,其中最核心的是Electric Sheep Africa项目构建的统一非洲数据仓库,旨在降低非洲医疗健康数据的使用门槛。该工作将WHO原始ODA接口中的离散观测值标准化为Parquet格式,并附加一致的元数据模式,使得跨指标联合分析(如将HBsAg流行率与乙肝疫苗接种覆盖率关联)变得更加便捷。这一预处理流程为后续时空建模与迁移学习研究奠定了数据基础设施,推动了非洲疾病监控领域的开放科学实践。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作