electricsheepafrica/africa-who-number-of-insecticide-classes-to-which-resistance-was
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-insecticide-classes-to-which-resistance-was
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标“报告的杀虫剂抗性类别数量”(IR_INSECTICIDERESISTANCE_PREV)在非洲国家的国家级观察数据,时间跨度为2000年至2015年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Number of insecticide classes to which resistance was reported" (IR_INSECTICIDERESISTANCE_PREV) across African nations, spanning 2000–2015. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站,聚焦于非洲地区2000至2015年间各国报告的抗药性昆虫类别数量。数据通过OData API直接抓取,以Parquet文件格式进行统一封装,确保其机器学习就绪特性。所有数值均采用浮点精度字段,而非显示字符串,并附带了置信区间上下界,以提升数据的科学严谨性。构建过程中,数据集实施了严格的地域过滤,仅保留WHO非洲区域成员国的观测记录,从而形成了一份覆盖40个非洲国家的272条行记录的清洁表格。
特点
数据集的核心特色在于其简洁性,每个国家-年份组合仅对应单一数值,无需处理额外分层维度。其模式设计直观明了,包含指示符编码、ISO国家代码、WHO区域、观测年份、数值估计及其置信区间,以及格式化显示字符串等关键字段。这种扁平化结构极大降低了数据预处理的复杂度,特别适合时间序列分析与回归建模。此外,数据集中保留的置信区间信息,为评估指标不确定性提供了量化基础,增强了其在流行病学研究中的适用性。
使用方法
用户可通过HuggingFace Datasets库便捷加载数据集,使用`load_dataset`函数即可获取完整的训练集DataFrame。若要聚焦于全国层面的双性别人群数据,可通过筛选`dim1`字段中后缀为`_BTSX`或空值的行来实现。针对特定国家的趋势分析,例如肯尼亚,可以按国家代码过滤并依年份排序,从而提取目标时间序列。该数据集作为分类与回归任务的通用原料,可直接用于构建预测模型或探索性数据分析流程。
背景与挑战
背景概述
在非洲大陆,疟疾等虫媒传染病构成了沉重的公共卫生负担,化学杀虫剂一直是控制病媒的核心手段。然而,蚊虫对杀虫剂的抗药性日益蔓延,严重威胁着防控成效。为系统追踪这一关键挑战,世界卫生组织(WHO)全球卫生观察站(GHO)发起了抗药性监测指标。在此背景下,Electric Sheep Africa项目于2023年左右整合了WHO官方数据,创建了名为“Africa — WHO GHO: Number of insecticide classes to which resistance was reported”的数据集。该数据集由Electric Sheep Africa团队从WHO GHO的OData API直接获取并重构,覆盖2000年至2015年间40个非洲国家,核心记录了各国报告抗药性的杀虫剂种类数量。它作为非洲数据统一仓库的组成部分,为流行病学建模、政策评估与机器学习研究提供了标准化、可直接使用的权威基准,有力推动了数据驱动的抗药性决策与干预策略优化。
当前挑战
该数据集所应对的领域核心挑战在于:非洲疟疾病媒对多种杀虫剂产生抗药性,而抗药性的时空分布模糊不清,导致大规模杀虫剂喷洒计划(如室内滞留喷洒)效率递减甚至失效,亟需量化工具来识别抗药性热点与演变趋势。在构建过程中,数据集遭遇了多重技术挑战:一是原始WHO数据分布在多个API端点,需设计统一的ETL管道进行清洗与合并;二是不同国家上报的置信区间与数据完整性参差不齐,必须甄别并保留'value_low'与'value_high'字段以支持不确定性分析;三是2000至2015年的观测样本仅有272条,国家与时间维度的稀疏性限制了机器学习模型的泛化能力,处理缺失值与类不平衡问题成为数据预处理的难点。
常用场景
经典使用场景
非洲地区蚊虫对杀虫剂产生耐药性一直是疟疾防控领域的核心挑战。该数据集聚焦于世界卫生组织全球卫生观测站所记录的非洲国家层面指标,即‘报告耐药性的杀虫剂类别数量’,覆盖2000年至2015年间40个非洲国家的272条观测记录。其经典使用场景在于作为时间序列分析的基础数据源,研究者可借此追踪不同国家或区域在特定年份内蚊虫对多少类杀虫剂产生了抗性,从而量化耐药性扩散的广度与速度,为流行病学监测提供关键的定量锚点。
解决学术问题
在学术研究中,该数据集直接回应了公共卫生领域长期存在的量化难题:如何系统性地评估杀虫剂耐药性在非洲大陆的演变趋势与空间分布。传统上,耐药性数据往往零散分布于各国报告,缺乏统一样本与机器可读的格式。本数据集通过标准化架构与置信区间提供,使学者能够开展跨国比较分析、构建耐药性扩散预测模型,并验证诸如‘耐药性是否随杀虫剂使用年限递增’等假设,其意义在于推动疟疾传播动力学研究从定性描述迈向数据驱动的定量建模。
衍生相关工作
基于该数据集,学术界已衍生出一系列关键的后续工作。首先,它被整合进更大的非洲健康数据生态,与其他疟疾发病率、杀虫剂使用量等指标联合,用于构建多变量耐药性风险预测模型。其次,研究者利用其时间跨度特性,开发出评估国家层面耐药性演变速度的统计框架,并衍生出探讨杀虫剂压力与抗性基因频率之间关系的生态流行病学分析。此外,该数据集还催生了针对数据缺失地区进行空间插值与填补的机器学习方法研究,拓展了其在数据稀疏情景下的应用边界。
以上内容由遇见数据集搜集并总结生成



