electricsheepafrica/africa-who-proportion-of-bloodstream-infection-due-to-methicillin
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-proportion-of-bloodstream-infection-due-to-methicillin
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标由耐甲氧西林金黄色葡萄球菌(MRSA)引起的血流感染比例(%)(AMR_INFECT_MRSA)在非洲国家的国家级观察数据,时间跨度为2016年至2023年。它是Electric Sheep Africa系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来自WHO全球健康观察站OData API,并重新打包为具有一致模式的Parquet文件。所有值均来自NumericValue(浮点精度字段),而不是显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖22个非洲国家,总共有80行数据,区域筛选条件为WHO AFRO(ParentLocationCode = AFR)。数据模式包括指标代码、国家ISO3代码、WHO区域代码、观察年份、数值估计值、置信区间边界、显示字符串、维度类型和值等字段。
This dataset contains country-level observations for the WHO GHO indicator Proportion of bloodstream infection due to methicillin-resistant Staphylococcus aureus (MRSA) (%) (AMR_INFECT_MRSA) across African nations, spanning 2016–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 22 African nations with a total of 80 rows, filtered by WHO AFRO region (ParentLocationCode = AFR). The schema includes fields such as indicator code, country ISO3 code, WHO region code, observation year, numeric value estimate, confidence interval bounds, display string, dimension types and values, etc.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲国家耐甲氧西林金黄色葡萄球菌(MRSA)血流感染比例的监测指标(AMR_INFECT_MRSA)。数据经Electric Sheep Africa团队统一整理,以Parquet格式存储,构建了一套机器学习就绪的标准化数据集。所有观测值均采用浮点精度的数值字段(NumericValue),而非展示字符串,确保了数据的数值准确性。同时,数据集保留了置信区间上下限字段(value_low、value_high),为后续统计分析提供了可靠支撑。
使用方法
用户可通过HuggingFace的datasets库直接加载该数据集,调用load_dataset函数即可获得训练集格式的数据,并可便捷地转换为Pandas DataFrame进行后续操作。例如,通过筛选dim1字段以保留两性(_BTSX)及国家级别的数据,或按国家ISO代码(如KEN)提取特定国家的时间序列。数据集支持分类与回归任务,其点估计值可作为主要预测目标,而置信区间可辅助不确定性建模,适用于抗菌药物耐药性相关的趋势分析与建模研究。
背景与挑战
背景概述
抗菌药物耐药性(AMR)已成为全球公共卫生领域的重大威胁,其中耐甲氧西林金黄色葡萄球菌(MRSA)引发的血流感染因其高发病率和死亡率而备受关注。世界卫生组织(WHO)全球卫生观察站(GHO)作为权威数据源,系统追踪各国MRSA耐药性流行趋势。在此背景下,Electric Sheep Africa团队于2023年基于WHO GHO的开放数据,构建了覆盖2016至2023年间22个非洲国家的MRSA血流感染比例数据集(AMR_INFECT_MRSA)。该数据集以结构化Parquet文件格式呈现,包含点估计值及置信区间,旨在为机器学习模型提供统一、可直接使用的非洲区域AMR监测数据,弥补了该领域高质量开源数据集的缺失,对推动非洲抗菌药物管理政策制定与流行病学研究具有重要价值。
当前挑战
该数据集所应对的核心领域挑战在于非洲地区MRSA耐药性监测数据分散、标准不一且难以获取,阻碍了区域耐药性趋势的精准分析与干预策略的制定。若缺乏此类整合数据,公共卫生决策者难以量化耐甲氧西林金黄色葡萄球菌的流行程度,进而影响抗菌药物使用指南的优化。在数据构建层面,挑战主要来源于WHO GHO原始API输出的多维度信息(如性别、居住地类型等)需统一转化为适用于ML任务的平面化表格结构;不同国家报告年份与粒度参差不齐,需严格筛选并补全缺失的时间序列;同时需保留置信区间等统计信息以支持不确定性量化,最终在仅包含80条记录的小样本量下,仍确保数据的一致性与可复现性,考验了数据清洗与架构设计的精细程度。
常用场景
经典使用场景
在非洲公共卫生监测与抗菌药物耐药性(AMR)研究的交叉领域中,该数据集最为经典的用途在于构建基于时间的MRSA血流感染比例预测模型。通过整合2016至2023年间22个非洲国家层面的微生物学监测数据,研究者可将其作为监督学习的回归目标变量,用于捕捉耐甲氧西林金黄色葡萄球菌感染在特定地理区域和年份间的动态变化趋势。数据集中包含的点估计值、置信区间以及国家标识符,为时空流行病学分析提供了标准化且可直接用于机器学习流水线的结构化输入,从而实现对耐药性演变规律的量化刻画。
解决学术问题
该数据集直面非洲大陆在AMR监测领域长期存在的数据碎片化与标准化缺失这一核心学术困境。世界卫生组织全球卫生观察站虽已系统化收集MRSA感染比例指标,但原始数据常因格式不一、元数据分散而难以直接驱动计算建模。此数据集通过统一的Parquet格式整理、引入置信区间字段并剔除显示字符串的冗余信息,解决了跨国家、跨年份耐药性数据整合与可比性的关键障碍,为评估非洲区域MRSA流行负担、识别高耐药风险国家以及分析感染比例的时间演化模式提供了坚实的数据基础。
实际应用
在实际应用层面,该数据集能够直接赋能非洲各国卫生部门的抗菌药物管理计划(Antimicrobial Stewardship Programs)与临床决策支持系统。医疗机构可利用模型推断结果,动态优化MRSA血流感染的经验性抗生素治疗指南,尤其在微生物培养能力有限的资源匮乏环境中,基于历史监测数据推算出的耐药性概率可辅助医生更精准地选择初始治疗方案。此外,公共卫生机构能据此确立区域性耐药性预警阈值,指导抗生素采购策略与感染控制资源的优先配置,从而在抑制耐药菌进一步扩散的同时降低治疗失败率与医疗系统负担。
数据集最近研究
最新研究方向
在全球公共卫生领域,耐甲氧西林金黄色葡萄球菌(MRSA)引起的血流感染已成为 antimicrobial resistance(AMR)监测的核心议题,尤其在医疗资源相对薄弱的非洲地区,其流行病学特征与防控策略的优化需求尤为迫切。该数据集整合了2016至2023年间22个非洲国家的MRSA血流感染比例指标,为构建区域性的AMR预警模型与时空动态分析提供了稀缺的高质量数据基础。近期前沿研究聚焦于利用此类标准化、可纵向比较的数据,通过机器学习方法识别感染率突变的时空热点,并评估干预措施(如抗生素管理政策)的阶段性效果,从而为世界卫生组织在非洲的区域行动提供循证决策支持。这一数据洞见不仅推动了传染病流行病学从描述性统计向预测性建模的范式转变,也为全球AMR防控框架在欠发达地区的落地实践注入了关键的实证力量。
以上内容由遇见数据集搜集并总结生成



