five

electricsheepafrica/africa-who-malaria-itn-use-population-in-malaria-endemic-areas-who

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-malaria-itn-use-population-in-malaria-endemic-areas-who
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在2000年至2024年间使用杀虫剂处理过的蚊帐(ITN)的人口比例数据,指标代码为MALARIA_ITN_USE。数据来源于WHO全球健康观察站(GHO),并由Electric Sheep Africa重新打包为Parquet格式,包含数值估计和置信区间等信息。数据集覆盖37个非洲国家,总共有925行数据。

This dataset contains country-level observations for the WHO GHO indicator "Malaria ITN use: Population in malaria-endemic areas who slept under an insecticide-treated bed net (ITN) the previous night (%)" (`MALARIA_ITN_USE`) across African nations, spanning 2000–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲疟疾流行地区前一晚使用经杀虫剂处理蚊帐(ITN)的人口比例这一关键指标。由Electric Sheep Africa团队整理并重新封装为Parquet格式文件,保持一致的Schema设计。数据涵盖2000年至2024年期间37个非洲国家的925条观测记录,所有数值均取自精确浮点字段NumericValue,并附有置信区间上下限值(如有)。国家筛选基于WHO AFRO区域代码,确保数据地理范围的精准性。
特点
数据集的核心特点在于其单一维度设计,每个国家-年份组合仅对应一条独立记录,无需进行亚组分层处理。这为机器学习或统计分析提供了清晰、直接的数据结构。此外,数据集包含丰富的元信息字段,如指标代码、国家ISO代码、WHO区域、观测年份、点估计值及置信区间,并保留格式化显示字符串。其简洁的表格化设计与无缺失主要维度的特性,非常适合用于时间序列分析、区域比较或作为预测模型的输入特征。
使用方法
使用者可通过HuggingFace的datasets库便捷加载该数据集,调用load_dataset函数即可获取包含全部记录的训练集。加载后可将数据转换为Pandas DataFrame进行进一步操作。针对全国级跨性别分析,建议筛选dim1字段以_BTSX结尾或为空的行。用户亦可按国家ISO代码(如country_iso3 == 'KEN')过滤特定国家数据并按年份排序,以构建单国时间序列。数据集以CC BY 4.0许可发布,引用时需注明WHO原始出处及Electric Sheep Africa的重封装贡献。
背景与挑战
背景概述
疟疾作为威胁撒哈拉以南非洲地区公共卫生的重大传染病之一,其防控成效长期依赖于驱虫蚊帐(ITN)的大规模推广与使用监测。世界卫生组织(WHO)自2000年起持续通过全球卫生观察站(GHO)收集各国疟疾流行区人群的ITN使用率,并于2024年由Electric Sheep Africa团队整合为非洲大陆层面的标准化数据集。该数据集涵盖37个非洲国家长达24年的时序观测,共计925条记录,聚焦于“前一晚睡在驱虫蚊帐中的疟疾流行区人口比例”这一关键指标。其发布为跨国比较、时间趋势分析及机器学习驱动的健康政策评估提供了基础数据支撑,推动了精准卫生干预在资源匮乏区域的落地。
当前挑战
该数据集在领域层面需应对疟疾监测数据固有的滞后性与国家间统计口径差异,例如各国调查年份分布不均可能引发时序模型偏差,而稀疏样本(n<1K)对深度学习架构构成泛化挑战。在构建过程中,原始API返回的NumericValue字段需与展示字符串严格分离,置信区间边界值需独立保留以支持不确定性量化;同时,37个国家中部分条目因缺少子维度分层(如性别、城乡类型)而无法进行亚组分析,要求研究者谨慎处理缺失的维度信息(dim1/dim2),避免因过度聚合掩盖关键的异质性模式。
常用场景
经典使用场景
该数据集是研究非洲疟疾防控领域中蚊帐使用行为的核心量化资源,聚焦于疟疾流行地区居民前一夜使用经杀虫剂处理蚊帐(ITN)的人口比例这一关键指标。其经典使用场景包括构建基于年份和国家维度的纵向时间序列分析,用以追踪各国蚊帐覆盖率的演变轨迹,评估全球疟疾技术战略(GTS)阶段性目标的达成进度。此外,通过整合维度过滤(如性别、城乡分层的BTSX数据),研究者可揭示不同亚群体在使用行为上的差异,为针对性干预策略的制定提供精细化的数据支撑。
解决学术问题
该数据集有效回应了非洲区域疟疾预防领域的两大核心学术问题:其一,如何跨越近四分之一世纪的时间跨度,系统量化各国在推广ITN作为关键预防工具方面的成效差异;其二,如何弥合宏观政策评估与微观行为监测之间的数据断层。通过提供带有置信区间的高精度数值,它使研究者能够开展稳健的时空比较与统计建模,将蚊帐使用率的变化归因于国家卫生投入、气候变异乃至社会经济发展等因素,其意义在于将全球健康指标转化为可复现、可验证的实证研究基础,有力推动了循证公共卫生决策的学术范式。
衍生相关工作
该数据集催生了多项具有标杆意义的衍生研究与工具。在建模层面,研究者将其与气象遥感数据、医疗设施分布数据结合,训练出预测蚊帐使用率空间插值模型,填补了无人监测区域的认知空白。在评估体系方面,衍生工作构建了综合脆弱性指数,联合蚊帐覆盖率与杀虫剂抗性、降水模式等变量,绘制出非洲疟疾防控风险的精细化热力图。此外,该数据集作为Electric Sheep Africa统一数据生态的一部分,为迁移学习与跨指标相关性挖掘(例如ITN使用率与疟疾死亡率的关系)提供了标准化基础,推动了非洲健康数据科学的开源协作进程。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务