electricsheepafrica/africa-sdg-all
收藏Hugging Face2026-04-27 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-sdg-all
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是尼日利亚地理参考基线卫生设施的清单,收集于2010年、2012年和2014年。数据集包含34,122行记录,每行代表一个设施或站点记录,具有32个列(17个数值型,13个类别型,1个日期时间型)。数据集分为训练集(27,297行)和测试集(6,824行)。涵盖了多个非洲国家的公共卫生领域,包括设施名称、类型、服务、人员数量、管理类型等多个变量。数据经过清洗和标准化处理,转换为Parquet格式,并分为训练和测试集。
annotations_creators:
- 无注释
language_creators:
- 公开资源采集
language:
- 英语
license: 知识共享署名4.0(CC-BY-4.0)
multilinguality:
- 单语言
size_categories:
- 10000 < 样本量 < 100000
source_datasets:
- 原生数据集
task_categories:
- 表格分类
- 其他
task_ids: []
tags:
- 非洲
- 人道主义
- 人道主义数据交换(Humanitarian Data Exchange,HDX)
- Electric Sheep Africa
- 卫生
- 千年发展目标(Millennium Development Goals,MDG)
- 尼日利亚
pretty_name: "尼日利亚卫生设施"
dataset_info:
splits:
- name: 训练集
num_examples: 27297
- name: 测试集
num_examples: 6824
# 尼日利亚卫生设施
**发布方**:非洲代码计划(Code for Africa) · **数据源**:[OpenAfrica](https://open.africa/dataset/health-facilities-in-nigeria) · **授权协议**:`cc-by` · **更新时间**:2023年11月30日
---
## 摘要
尼日利亚全境地理锚定的基准卫生设施清单。数据分别于2010年(覆盖113个地方政府区域(Local Government Areas,LGAs))、2012年(覆盖661个地方政府区域(LGAs))及2014年采集。
本数据集每一行对应一处卫生设施或服务站点的记录,时间覆盖范围由`date_of_survey`(调查日期)列标注。地理覆盖范围:**非洲(多国)**。
*由[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)整理为适配机器学习的Parquet格式。*
---
## 数据集特征
| | |
|---|---|
| **领域** | 公共卫生 |
| **观测单元** | 设施或站点记录 |
| **总记录数** | 34122条 |
| **字段数** | 32个(17个数值型、13个分类型、1个日期时间型) |
| **训练集** | 27297条记录 |
| **测试集** | 6824条记录 |
| **地理覆盖范围** | 非洲(多国) |
| **发布方** | 非洲代码计划 |
| **OpenAfrica最后更新时间** | 2023年11月30日 |
---
## 变量
**地理类**:`facility_name`(设施名称,取值为诊所、初级卫生保健中心、卫生所)、`facility_type_display`(设施类型展示,取值为初级卫生保健中心(Primary Health Center,PHC)、卫生所、初级卫生保健中心(PHC))、`maternal_health_delivery_services`(孕产妇分娩服务覆盖情况,取值范围0.0–1.0)、`emergency_transport`(应急运输服务配备情况)、`phcn_electricity`(尼日利亚国家电力供电状态,取值范围0.0–1.0)及另外12个字段。
**时间类**:`num_chews_fulltime`(全职口腔健康医师数量,取值范围0.0–80.0)、`num_nurses_fulltime`(全职护士数量,取值范围0.0–513.0)、`num_nursemidwives_fulltime`(全职助产士数量,取值范围0.0–431.0)、`num_doctors_fulltime`(全职医生数量,取值范围0.0–378.0)。
**人口统计类**:`management`(运营主体,取值为公立、私立、信仰运营)。
**标识符与元数据类**:`vaccines_fridge_freezer`(疫苗冷藏冰柜配备情况,取值范围0.0–1.0)、`formhub_photo_id`(表单照片ID,示例值:1343740074336.jpg、1345807965911.jpg、1338021515767.jpg)、`esa_source`(Electric Sheep Africa数据源标识)、`esa_processed`(Electric Sheep Africa处理标识)。
**其他类**:`skilled_birth_attendant`(熟练接生人员配备情况,取值范围0.0–1.0)、`child_health_measles_immun_calc`(儿童麻疹疫苗接种率计算值,取值范围0.0–1.0)、`improved_sanitation`(改良卫生设施配备情况,取值范围0.0–1.0)、`malaria_treatment_artemisinin`(青蒿素类疟疾治疗服务覆盖情况,取值范围0.0–1.0)、`sector`(所属领域,取值为卫生)及另外1个字段。
---
## 快速入门
python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-sdg-all")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
---
## 字段结构
| 字段名 | 类型 | 空值占比 | 取值范围/示例值 |
|---|---|---|---|
| `facility_name` | 对象型 | 2.0% | 诊所、初级卫生保健中心、卫生所 |
| `facility_type_display` | 对象型 | 0.3% | 初级卫生保健中心、卫生所、初级卫生保健中心(PHC) |
| `maternal_health_delivery_services` | 64位浮点型 | 2.0% | 0.0 – 1.0(均值0.6256) |
| `emergency_transport` | 布尔型 | 0.0% | |
| `skilled_birth_attendant` | 64位浮点型 | 2.6% | 0.0 – 1.0(均值0.4047) |
| `num_chews_fulltime` | 64位浮点型 | 1.3% | 0.0 – 80.0(均值2.0773) |
| `phcn_electricity` | 64位浮点型 | 12.8% | 0.0 – 1.0(均值0.4022) |
| `c_section_yn` | 64位浮点型 | 1.6% | 0.0 – 1.0(均值0.1563) |
| `child_health_measles_immun_calc` | 64位浮点型 | 14.0% | 0.0 – 1.0(均值0.7326) |
| `num_nurses_fulltime` | 64位浮点型 | 7.3% | 0.0 – 513.0(均值0.9548) |
| `num_nursemidwives_fulltime` | 64位浮点型 | 2.9% | 0.0 – 431.0(均值1.0024) |
| `num_doctors_fulltime` | 64位浮点型 | 6.3% | 0.0 – 378.0(均值0.5895) |
| `date_of_survey` | 纳秒级日期时间型 | 0.0% | |
| `facility_id` | 对象型 | 0.0% | TSTEW、CJKVV、YISJY |
| `community` | 对象型 | 0.3% | 阿杰古勒、纳萨拉瓦、奥沃德 |
| `ward` | 对象型 | 0.6% | 1、2、3 |
| `management` | 对象型 | 13.9% | 公立、私立、信仰运营 |
| `improved_water_supply` | 64位浮点型 | 13.0% | 0.0 – 1.0(均值0.4688) |
| `improved_sanitation` | 64位浮点型 | 0.2% | 0.0 – 1.0(均值0.4544) |
| `vaccines_fridge_freezer` | 64位浮点型 | 14.2% | 0.0 – 1.0(均值0.2142) |
| `antenatal_care_yn` | 64位浮点型 | 2.0% | 0.0 – 1.0(均值0.7303) |
| `family_planning_yn` | 64位浮点型 | 2.2% | 0.0 – 1.0(均值0.5817) |
| `malaria_treatment_artemisinin` | 64位浮点型 | 1.9% | 0.0 – 1.0(均值0.7809) |
| `sector` | 对象型 | 0.0% | 卫生 |
| `formhub_photo_id` | 对象型 | 0.0% | 1343740074336.jpg、1345807965911.jpg、1338021515767.jpg |
| `gps` | 对象型 | 0.0% | 13.02249549 7.6687652 518.0999755859375 5.0、9.48369871 9.15410417 1157.300048828125 5.0、6.80233873 9.03228821 213.5 5.0 |
| `survey_id` | 对象型 | 0.0% | 451a0efb-5fa6-4bad-93cd-7cf19eb50833、36ea8fd1-cdee-46cc-8a7e-68b55bb68d6f、c3ddc64d-12ff-457e-8e59-4fb9547208da |
| `unique_lga` | 对象型 | 0.0% | |
| `latitude` | 64位浮点型 | 0.0% | 4.2818 – 13.865(均值8.5873) |
| `longitude` | 64位浮点型 | 0.0% | 2.7078 – 14.6364(均值7.2386) |
| `esa_source` | 对象型 | 0.0% | |
| `esa_processed` | 对象型 | 0.0% | |
---
## 数值统计摘要
| 字段名 | 最小值 | 最大值 | 均值 | 中位数 |
|---|---|---|---|---|
| `maternal_health_delivery_services` | 0.0 | 1.0 | 0.6256 | 1.0 |
| `skilled_birth_attendant` | 0.0 | 1.0 | 0.4047 | 0.0 |
| `num_chews_fulltime` | 0.0 | 80.0 | 2.0773 | 1.0 |
| `phcn_electricity` | 0.0 | 1.0 | 0.4022 | 0.0 |
| `c_section_yn` | 0.0 | 1.0 | 0.1563 | 0.0 |
| `child_health_measles_immun_calc` | 0.0 | 1.0 | 0.7326 | 1.0 |
| `num_nurses_fulltime` | 0.0 | 513.0 | 0.9548 | 0.0 |
| `num_nursemidwives_fulltime` | 0.0 | 431.0 | 1.0024 | 0.0 |
| `num_doctors_fulltime` | 0.0 | 378.0 | 0.5895 | 0.0 |
| `improved_water_supply` | 0.0 | 1.0 | 0.4688 | 0.0 |
| `improved_sanitation` | 0.0 | 1.0 | 0.4544 | 0.0 |
| `vaccines_fridge_freezer` | 0.0 | 1.0 | 0.2142 | 0.0 |
| `antenatal_care_yn` | 0.0 | 1.0 | 0.7303 | 1.0 |
| `family_planning_yn` | 0.0 | 1.0 | 0.5817 | 1.0 |
| `malaria_treatment_artemisinin` | 0.0 | 1.0 | 0.7809 | 1.0 |
---
## 数据整理流程
原始数据通过CKAN API从OpenAfrica下载,并转换为Parquet格式。字段名统一转为小写并采用蛇形命名法(snake_case)标准化。常见空值标记(`N/A`、`null`、`none`、`-`、`unknown`、`no data`、`#N/A`)统一替换为`NaN`。移除17条完全重复的记录。基于解析成功率(阈值>85%),将12个字段从字符串类型转换为数值型或日期时间型。使用固定随机种子(42)将数据集按80/20比例划分为训练集与测试集,并以Snappy压缩格式的Parquet文件保存。
---
## 局限性
- 数据源自非洲代码计划,未经过Electric Sheep Africa(ESA)的独立验证。
- 自动化清洗无法修正原始数据采集中的错报值、定义不一致或抽样偏差问题。
- 请查阅[原始HDX数据集页面](https://open.africa/dataset/health-facilities-in-nigeria)获取发布方提供的方法说明与注意事项。
---
## 引用
bibtex
@dataset{openafrica_africa_sdg_all,
title = {Health Facilities in Nigeria},
author = {Code for Africa},
year = {2023},
url = {https://open.africa/dataset/health-facilities-in-nigeria},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
---
*[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — 非洲机器学习数据集基础设施,尼日利亚拉各斯。*
提供机构:
electricsheepafrica



