five

electricsheepafrica/africa-who-japanese-encephalitis-number-of-reported-cases

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-japanese-encephalitis-number-of-reported-cases
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标“日本脑炎报告病例数”(WHS3_42)在非洲国家的国家级观察数据,时间跨度为2006年至2024年。它是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来自世界卫生组织全球健康观察的OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖了41个非洲国家,总共有282行数据,并且仅限于WHO非洲区域(ParentLocationCode = AFR)。

This dataset contains country-level observations for the WHO GHO indicator "Japanese encephalitis - number of reported cases" (`WHS3_42`) across African nations, spanning 2006–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 41 African nations with a total of 282 rows and is filtered to the WHO AFRO region (`ParentLocationCode = AFR`).
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织(WHO)全球卫生观察站(GHO)的公开数据接口,聚焦于非洲地区日本脑炎报告病例数这一关键公共卫生指标(指标代码WHS3_42)。数据覆盖2006至2024年间41个非洲国家的年度观测值,原始数据经由OData API获取后,被重新整理为统一模式的Parquet文件格式,保留了浮点精度的数值字段(NumericValue)作为核心分析对象,同时纳入可用的置信区间上下界,以提升数据完备性。
使用方法
用户可通过HuggingFace Datasets库便捷加载该数据集,一行代码即可将完整数据转化为Pandas DataFrame,便于后续分析与建模。针对机器学习应用,建议筛选出全国层面(dim1为SEX_BTSX或缺失值)的数据,以规避性别或城乡亚分层带来的混杂效应。对于时间序列预测任务,可依据国家代码分组并按年份排序,构建符合流行病学规律的序列数据。此外,导入时亦可借助数据集提供的置信区间字段,为模型不确定性评估提供依据。
背景与挑战
背景概述
日本脑炎作为一种由蚊媒传播的病毒性人畜共患疾病,在非洲地区的流行病学监测长期面临数据碎片化与报告不完整的困境。为此,世界卫生组织全球卫生观察站(WHO GHO)于2006年启动了标准化指标监测体系,其中指标WHS3_42专门追踪非洲各国日本脑炎报告病例数。该数据集由Electric Sheep Africa团队于2024年整合发布,覆盖2006至2024年间41个非洲国家的年度观察数据,共计282条记录,数据源自WHO GHO官方OData API并统一以Parquet格式存储。作为首个面向机器学习的非洲区域日本脑炎结构化时序数据集,它为评估非洲大陆该疾病的传播动态、监测防控成效提供了标准化分析基础,在公共卫生数据科学领域具有重要的示范与实用价值。
当前挑战
该数据集所应对的核心挑战在于非洲地区日本脑炎监测体系的结构性缺陷:多数国家缺乏实验室确诊能力与标准化报告机制,导致病例漏报、误报或报告不一致,严重影响区域疾病负担的准确评估与跨时空比较。数据集构建过程中面临多重技术障碍:一是原始数据分散于WHO GHO开放接口中,需从大量全球数据中精准筛选非洲区域并处理缺失值;二是各年份、各国间的数据采集标准与置信区间注释存在差异,需统一字段命名并保留高低置信界以保证统计稳健性;三是时间跨度长、样本量小(n<1K),为机器学习建模中的小样本学习与时间序列预测带来了过拟合与泛化性不足的额外挑战。
常用场景
经典使用场景
日本脑炎作为蚊媒传播的病毒性疾病,在非洲地区长期存在监测数据不完善、时空覆盖不均的痛点。该数据集汇聚了世界卫生组织全球卫生观察站2006至2024年间41个非洲国家的官方报告病例数,构建起一个结构整齐、可直接用于机器学习的表格形式时序资料。研究者和公卫分析师可借助该数据开展跨国家、跨时段的流行趋势对比,量化分析日本脑炎在非洲大陆的分布模式、季节性波动与长期演变,为区域性传染病流行病学研究提供坚实基础。
解决学术问题
在传染病流行病学领域,数据碎片化与可访问性不足是制约非洲区域研究的核心瓶颈。该数据集以统一的标准格式整合分散的国家级报告数据,解决了传统上依赖多源拼接、格式混杂的难题,使学界得以系统性地探讨日本脑炎在非洲的流行特征与风险因素。它为阐明该疾病的时空异质性、评估防控干预措施的滞后效应、以及构建预测模型量化未来暴发风险提供了关键的实证素材,对深化全球健康不平等问题的理解具有重要学术推动力。
实际应用
在公共卫生实践中,该数据集直接服务于世界卫生组织非洲区域办事处及各国家级疾控机构的决策需求。公卫规划者可基于历史报告数据识别高危地区与脆弱人群,优化有限疫苗资源的调配策略,指导日本脑炎监测哨点科学布设。此外,数据集中包含的置信区间信息允许决策者评估报告病例数的统计不确定性,从而制定更具韧性的疫情响应预案,提升非洲大陆对蚊媒传染病的整体防控效能与应急准备水平。
数据集最近研究
最新研究方向
该数据集聚焦非洲地区日本脑炎病例报告的时空分布与流行病学监测,结合WHO全球卫生观察站的长时序数据(2006–2024),为机器学习驱动的传染病预警、区域健康不平等分析及公共卫生政策评估提供了标准化、低维度的训练资源。当前前沿方向包括利用该数据训练时序预测模型以探索非洲大陆日本脑炎暴发周期与气候、人口流动的关联,以及整合多维健康指标构建跨区域疾病负担归因框架,其意义在于填补非洲传染病数据基础设施的空白,赋能实时疫情响应与资源分配优化。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务