electricsheepafrica/africa-who-percentage-of-sites-for-which-organochlorine-resistance-was
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-percentage-of-sites-for-which-organochlorine-resistance-was
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标报告有机氯抗性的地点百分比(IR_ORGANOCHLORINE_EXTENT)在非洲国家2000-2015年的国家级观测数据。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator Percentage of sites for which organochlorine resistance was reported (IR_ORGANOCHLORINE_EXTENT) across African nations, spanning 2000–2015. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区2000年至2015年间有机氯杀虫剂抗药性报告位点的百分比。数据以Parquet格式重新封装,具备统一模式,数值字段采用浮点精度的`NumericValue`而非显示字符串,并尽可能包含置信区间下界与上界。数据集共涵盖38个非洲国家,总计217条观测记录,每条记录代表特定国家与年份的单一点估计值,无子维度分层结构。
特点
数据集的核心特点在于其专注性、标准化与机器学习的友好性。所有指标均经过WHO AFRO区域过滤,确保地域一致性;数值精度采用浮点型,并携带置信区间信息,便于进行不确定性分析。此外,数据以Parquet格式存储,支持高效读取与大规模处理,便于直接接入机器学习流水线,适合用于分类与回归任务。
使用方法
使用方法简洁明晰,可通过HuggingFace的`datasets`库一键加载,将数据转化为Pandas DataFrame后即可进行后续分析。建议在分析时对`dim1`字段进行过滤,仅保留`_BTSX`后缀或空值记录,以获取全国层面且涵盖两性的数据。对于国家时间序列分析,可直接按`country_iso3`和`year`列进行筛选与排序,快速提取特定国家的纵向趋势。
背景与挑战
背景概述
该数据集由Electric Sheep Africa于2023年整理发布,源自世界卫生组织(WHO)全球卫生观察站(GHO),聚焦于2000年至2015年间非洲38个国家中报告有机氯杀虫剂抗药性的监测点比例。有机氯杀虫剂(如DDT)曾是蚊媒疾病控制的核心工具,但其长期使用导致的抗药性扩散已成为疟疾等传染病防控的重大障碍。该数据集以标准化格式(Parquet文件)整合了WHO整的官方统计,提供了点估计值及置信区间,为研究非洲地区杀虫剂抗药性时空演变、评估公共卫生干预效果提供了关键数据支撑。其在机器学习领域的引入,填补了非洲健康空间数据在表格型回归与分类任务中的空白,推动了数据驱动的抗药性监测与预警研究。
当前挑战
该数据集所解决的领域挑战在于有机氯抗药性监测数据的稀疏性与碎片化——此前非洲各国数据分散于不同报告,缺乏统一、机器可读的格式化集合。构建过程中面临多源数据协调的难题:WHO原始API返回的字段包含显示字符串与数值型变量,需剔除歧义并提取精确浮点值;同时需处理置信区间缺失、国家编码不统一及时间跨度不连续(2000–2015年间仅217条记录)等数据质量问题。此外,抗药性指标本身存在采样偏差——数据仅覆盖少数监测点,难以代表国家全境——以及维度过少(无性别或年龄分层)导致模型泛化能力受限,这些均对下游预测任务构成严峻挑战。
常用场景
经典使用场景
该数据集聚焦于非洲地区有机氯杀虫剂抗性报告点的百分比,涵盖2000至2015年间38个非洲国家的观测数据,共计217个样本。其最经典的使用场景是作为监督学习任务的基础,用于分类或回归分析,以探究非洲不同国家在有机氯抗性方面的时空分布特征。研究人员常利用该数据集中的数值型点估计值作为目标变量,结合年份和国家代码等特征,构建预测模型来估计未观测地区或未来年份的抗性比率,从而助力公共卫生领域的精准干预。
解决学术问题
在学术研究层面,该数据集有效解决了非洲地区有机氯杀虫剂抗性监测数据分散、不统一的难题,为量化抗性时空演变规律提供了标准化的结构化数据源。通过分析这些数据,学者们能够深入揭示抗性发生的热点区域及其随时间变化的趋势,为阐明杀虫剂滥用与环境生态之间的关联机制提供实证基础。这对于评估疟疾等虫媒疾病控制策略的有效性、理解抗性进化动力学具有重要意义,也推动了全球健康数据整合与开放科学的发展。
衍生相关工作
该数据集衍生了多项相关研究工作,包括基于时空统计模型(如时空克里金、贝叶斯层次模型)对非洲有机氯抗性进行插值与趋势预测,以及结合其他环境与流行病学数据(如气候、杀虫剂使用量、疟疾病例)构建多源联合分析框架。此外,该数据集作为Electric Sheep Africa项目的一部分,还促进了机器学习方法在健康指标预测中的应用,例如开发集成学习模型来填补缺失年份的观测,或利用特征重要性分析识别影响抗性报告的关键因子,为后续的因果推断研究奠定了基础。
以上内容由遇见数据集搜集并总结生成



