five

electricsheepafrica/africa-health-facilities-congo-rep

收藏
Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-health-facilities-congo-rep
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含东刚果地区的卫生设施属性,如名称、设施性质、经纬度坐标等。每条记录代表一个卫生设施或站点。数据集由Global Healthsites Mapping Project通过HDX发布,并由Electric Sheep Africa整理为适合机器学习的格式。总共有776条记录,分为训练集(620条)和测试集(155条)。数据集涵盖10个变量,包括3个数值型和7个类别型变量。地理范围限定为刚果(COG)。数据集最后更新于2024年4月24日。

The dataset contains healthsite attributes for locations in East Congo, including Name, Nature of facility, Lat, Lon, and Source. Each row represents a facility or site record. The data is published by the Global Healthsites Mapping Project via HDX and curated into ML-ready format by Electric Sheep Africa. There are 776 total rows, split into 620 training and 155 test examples. The dataset includes 10 variables (3 numeric, 7 categorical). Geographic scope is limited to COG (Congo). Data was last updated on HDX on 2024-04-24.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
在全球公共卫生领域,空间化的医疗设施数据对疫情响应与资源调度至关重要。本数据集源自全球健康站点测绘项目,经由人道主义数据交换平台(HDX)的CKAN应用程序编程接口下载,并由Electric Sheep Africa团队转换为机器学习就绪的Parquet格式。原始数据经过列名规范化处理,统一为小写蛇形命名法,并将常见缺失值标记(如N/A、null、none等)归并为NaN。同时,剔除了缺失率超过80%的无效字段,如省份、地区、地址等,最终按照固定随机种子42划分为80%的训练集(620条)与20%的测试集(155条),并以Snappy压缩格式存储。
使用方法
本数据集专为机器学习任务设计,用户可通过Hugging Face的datasets库便捷调用。使用load_dataset('electricsheepafrica/africa-health-facilities-congo-rep')即可加载预划分的训练集与测试集,并支持直接转换为pandas数据框以便进一步处理。数据适用于表格分类任务,如基于设施属性预测机构类型或分析空间分布模式。建议在使用前留意原数据集的局限性,包括数据来源未经独立验证及自动化清洗可能遗留的原始采集偏差,可参考HDX原页面获取详细的元方法论说明以确保分析结果的严谨性。
背景与挑战
背景概述
在公共卫生领域,准确且详尽的医疗设施空间分布数据是流行病监测、医疗资源配置与人道主义救援行动的基础。刚果民主共和国东部地区长期面临武装冲突、基础设施薄弱与传染病暴发的多重挑战,使得该区域健康设施的精准地图化成为国际公共卫生机构关注的焦点。该数据集由Global Healthsites Mapping Project于2024年4月发布,并由Electric Sheep Africa整理为机器学习就绪格式,包含刚果东部地区776个设施记录,涵盖名称、设施性质、经纬度及来源信息,旨在为疾病防控、医疗可达性分析与应急响应提供可靠的数据支撑,对促进非洲地区数据驱动型公共卫生决策具有重要价值。
当前挑战
该数据集所应对的领域核心挑战在于刚果东部动荡地区健康设施数据的极度匮乏与不完整性,传统的行政统计往往因冲突与基础设施缺失而无法覆盖偏远区域,导致医疗资源分配失衡与疫情响应延迟。在构建过程中,面临的挑战包括原始数据来源多样且标准不一,需对‘N/A’、‘unknown’等大量缺失值进行统一处理,并剔除缺失率超过80%的多余列;此外,数据主要依赖无国界医生组织等非政府机构的报告,未经独立验证,存在定义不一致与采样偏差的风险,自动化清洗流程难以完全消除底层数据质量隐患,从而对模型的鲁棒性与结果的可靠性提出更高要求。
常用场景
经典使用场景
在公共卫生地理信息学领域,该数据集最经典的使用场景是作为医疗设施空间分布建模与可达性分析的基准数据。研究者在刚果东部地区开展卫生服务覆盖评估时,可基于其中记录的机构名称、设施性质以及经纬度坐标,构建医疗服务点的空间位置数据库。这些信息能够支撑地理加权回归、核密度估计以及最近邻分析等空间统计方法,进而揭示医疗资源配置的不均衡性,为区域卫生规划提供量化决策依据。
解决学术问题
该数据集有效地解决了刚果东部地区医疗设施数据碎片化且缺乏统一质量标准这一长期困扰学术界的难题。通过系统整理来自全球卫生设施测绘项目的原始记录,消除了多源异构数据在字段命名与缺失值表示上的不一致性,为后续研究提供了可复现的标准化样本。它使得学者能够围绕医疗资源空间公平性、设施类型分布与人口需求匹配等核心议题展开实证分析,显著推动了热带地区卫生系统脆弱性研究的深入发展。
实际应用
在实际应用层面,该数据集已成为人道主义援助与应急响应的基础情报资源。国际非政府组织可依据设施点位与属性信息优化救援物资的仓储选址,并在疾病暴发时精准规划医疗物资补给路线。同时,政府卫生部门能够结合人口普查数据,利用该数据集评估当前公共卫生设施的承载能力,从而制定新建诊所或升级现有机构的投资策略,切实提升偏远社区的医疗服务可及性。
数据集最近研究
最新研究方向
当前,非洲刚果(金)东部地区的医疗设施数据集正成为公共卫生地理信息系统与机器学习交叉领域的前沿研究对象。该数据集由Global Healthsites Mapping Project发布并经Electric Sheep Africa清洗为ML就绪的Parquet格式,涵盖776处设施的名称、性质及精确经纬度坐标。研究热点聚焦于利用这些结构化数据训练空间聚类与资源分配模型,以优化冲突频发地区的医疗可达性评估。尤其在2024年人道主义危机升级的背景下,该数据集为无国界医生等组织提供了关键的地理信息基础,助力实现精准的疫情监测与应急响应规划。其开放许可(ODbL)与标准化处理流程,亦为多源健康设施数据的跨国整合与可复现分析树立了范例。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作