five

electricsheepafrica/africa-who-congenital-rubella-syndrome-number-of-reported-cases

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-congenital-rubella-syndrome-number-of-reported-cases
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家关于先天性风疹综合征报告病例数(WHO GHO指标代码:WHS3_55)的国家级观测数据,时间跨度为1999年至2024年。它是[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)系列的一部分——一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的模式结构。所有数值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。

This dataset contains country-level observations for the WHO GHO indicator "Congenital Rubella Syndrome - number of reported cases" (`WHS3_55`) across African nations, spanning 1999–2024. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区先天性风疹综合征报告病例数这一关键公共卫生指标(指标代码WHS3_55)。数据经过系统化整理,将原始接口中的NumericValue字段(浮点精度)作为核心数值,并以Parquet格式重新封装,确保其具备一致的模式结构。覆盖1999至2024年间46个非洲国家的376条观测记录,每一行对应一个国家与年份的单一观测值,同时纳入了置信区间边界(value_low与value_high)以增强统计可靠性。该数据集由Electric Sheep Africa团队统一整合,旨在为机器学习应用提供可直接使用的标准化非洲健康数据资源。
特点
该数据集最显著的特点在于其高度的针对性与标准化。数据严格限定于WHO非洲区域(AFR),排除了其他区域的干扰,使得研究焦点精准锁定非洲大陆的疾病负担。所有数值均源自浮点精度的原始数据,而非格式化显示字符串,从而避免了因单位或四舍五入导致的歧义,极大提升了数据在定量分析中的可用性。此外,数据集包含了国家ISO编码、年份及可选的置信区间信息,为时空分析与不确定性评估提供了坚实的结构支撑。尽管无子维度分层,其简洁的“国家-年份”结构反而降低了数据处理的复杂度,便于快速接入各种回归或分类模型。
使用方法
使用者可通过Hugging Face的datasets库轻松加载该数据集,一句命令即可将数据转化为Pandas DataFrame格式供后续分析。推荐在预处理阶段按需要进行维度过滤,例如通过筛选dim1字段中以'_BTSX'结尾或为空的行,可快速获取全国层面且性别合并的观测数据,排除亚组分层带来的冗余。对于时间序列分析,可依据country_iso3字段对特定国家(如肯尼亚)进行切片,并按year排序以观察疾病报告数的长期演变趋势。该数据集天然适合作为回归任务的目标变量,用于预测或相关性分析,也可转化为分类标签,以研究报告病例数的阈值分布。
背景与挑战
背景概述
先天性风疹综合征是由风疹病毒导致的一种严重先天性感染,可引发胎儿多器官畸形、听力丧失及智力发育障碍,在全球范围内构成了显著的公共卫生负担。世界卫生组织全球卫生观察站于2024年发布的此数据集,由Electric Sheep Africa团队整理并托管于HuggingFace平台,聚焦非洲地区1999至2024年间先天性风疹综合征报告病例数的国家级统计数据。该数据集包含46个非洲国家的376条观测记录,旨在为流行病学建模、疾病负担评估及疫苗干预效果分析提供标准化的机器学习就绪数据资源。作为非洲健康数据统一存储库的组成部分,它填补了该区域先天性风疹综合征量化研究的空白,有力推动了全球疾病监测与消除目标的实现。
当前挑战
该数据集所解决的领域问题主要涉及非洲地区先天性风疹综合征流行病学监测的困境,包括病例报告系统不完善所导致的漏报与误报、长期时间序列数据的缺失以及跨国家间数据可比性差等挑战。在数据构建过程中,面临的挑战包括从WHO OData API提取时需应对异构数据格式的统一转换、缺失值与置信区间边界的处理、以及确保各年份与国家的观测值在‘NumericValue’字段上精度的一致。此外,还需对46个国家在不同年限的数据覆盖断点进行记录与标注,以支持下游监督学习与时间序列分析任务的稳健开展。
常用场景
经典使用场景
该数据集的核心应用场景聚焦于非洲地区先天性风疹综合征(CRS)报告病例数的时空分析与预测。研究者常利用其覆盖46个非洲国家、横跨1999至2024年的纵向观测值,构建时间序列模型或回归框架,以揭示CRS发病率的区域异质性及长期演化趋势。凭借一致的指标代码和浮点精度数值,该数据为跨国的公共卫生监测、疫情预警及干预效果评估奠定了量化基础,尤其适合在数据稀疏的非洲语境下开展机器学习驱动的流行病学建模。
实际应用
在实际应用层面,该数据集可被公共卫生决策者与全球健康机构用作证据驱动的规划工具。通过解析各国年度报告病例的分布轮廓,政策制定者能够精准锁定高负担地区,合理调配风疹疫苗资源,并优化产前筛查方案的覆盖范围。此外,结合置信区间信息,该数据支持开展风险分层评估,助力世界卫生组织非洲区域办事处审查消除风疹目标的阶段性进展,从而在有限的医疗预算下最大化干预效能。
衍生相关工作
围绕该数据集衍生出一系列开创性工作,涵盖机器学习驱动的传染病时空建模、基于贝叶斯层次方法的疾病负担估算,以及利用多源数据融合进行风疹消除进展评估的研究范式。其中,典型工作包括构建集成预测框架以模拟CRS在低收入国家的爆发风险,设计跨年份插补算法以处理缺失观测值,以及开发可解释性模型以揭示气候、人口流动与卫生系统可达性对CRS报告率的影响。这些探索不仅深化了对非洲风疹流行病学的理解,也为此类稀少样本量下的健康指标分析提供了方法论范本。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务