five

electricsheepafrica/africa-sdg-all

收藏
Hugging Face2026-04-27 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-sdg-all
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是尼日利亚地理参考基线卫生设施的清单,收集于2010年、2012年和2014年。数据集包含34,122行记录,每行代表一个设施或站点记录,具有32个列(17个数值型,13个类别型,1个日期时间型)。数据集分为训练集(27,297行)和测试集(6,824行)。涵盖了多个非洲国家的公共卫生领域,包括设施名称、类型、服务、人员数量、管理类型等多个变量。数据经过清洗和标准化处理,转换为Parquet格式,并分为训练和测试集。

annotations_creators: - 无注释 language_creators: - 公开资源采集 language: - 英语 license: 知识共享署名4.0(CC-BY-4.0) multilinguality: - 单语言 size_categories: - 10000 < 样本量 < 100000 source_datasets: - 原生数据集 task_categories: - 表格分类 - 其他 task_ids: [] tags: - 非洲 - 人道主义 - 人道主义数据交换(Humanitarian Data Exchange,HDX) - Electric Sheep Africa - 卫生 - 千年发展目标(Millennium Development Goals,MDG) - 尼日利亚 pretty_name: "尼日利亚卫生设施" dataset_info: splits: - name: 训练集 num_examples: 27297 - name: 测试集 num_examples: 6824 # 尼日利亚卫生设施 **发布方**:非洲代码计划(Code for Africa) · **数据源**:[OpenAfrica](https://open.africa/dataset/health-facilities-in-nigeria) · **授权协议**:`cc-by` · **更新时间**:2023年11月30日 --- ## 摘要 尼日利亚全境地理锚定的基准卫生设施清单。数据分别于2010年(覆盖113个地方政府区域(Local Government Areas,LGAs))、2012年(覆盖661个地方政府区域(LGAs))及2014年采集。 本数据集每一行对应一处卫生设施或服务站点的记录,时间覆盖范围由`date_of_survey`(调查日期)列标注。地理覆盖范围:**非洲(多国)**。 *由[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)整理为适配机器学习的Parquet格式。* --- ## 数据集特征 | | | |---|---| | **领域** | 公共卫生 | | **观测单元** | 设施或站点记录 | | **总记录数** | 34122条 | | **字段数** | 32个(17个数值型、13个分类型、1个日期时间型) | | **训练集** | 27297条记录 | | **测试集** | 6824条记录 | | **地理覆盖范围** | 非洲(多国) | | **发布方** | 非洲代码计划 | | **OpenAfrica最后更新时间** | 2023年11月30日 | --- ## 变量 **地理类**:`facility_name`(设施名称,取值为诊所、初级卫生保健中心、卫生所)、`facility_type_display`(设施类型展示,取值为初级卫生保健中心(Primary Health Center,PHC)、卫生所、初级卫生保健中心(PHC))、`maternal_health_delivery_services`(孕产妇分娩服务覆盖情况,取值范围0.0–1.0)、`emergency_transport`(应急运输服务配备情况)、`phcn_electricity`(尼日利亚国家电力供电状态,取值范围0.0–1.0)及另外12个字段。 **时间类**:`num_chews_fulltime`(全职口腔健康医师数量,取值范围0.0–80.0)、`num_nurses_fulltime`(全职护士数量,取值范围0.0–513.0)、`num_nursemidwives_fulltime`(全职助产士数量,取值范围0.0–431.0)、`num_doctors_fulltime`(全职医生数量,取值范围0.0–378.0)。 **人口统计类**:`management`(运营主体,取值为公立、私立、信仰运营)。 **标识符与元数据类**:`vaccines_fridge_freezer`(疫苗冷藏冰柜配备情况,取值范围0.0–1.0)、`formhub_photo_id`(表单照片ID,示例值:1343740074336.jpg、1345807965911.jpg、1338021515767.jpg)、`esa_source`(Electric Sheep Africa数据源标识)、`esa_processed`(Electric Sheep Africa处理标识)。 **其他类**:`skilled_birth_attendant`(熟练接生人员配备情况,取值范围0.0–1.0)、`child_health_measles_immun_calc`(儿童麻疹疫苗接种率计算值,取值范围0.0–1.0)、`improved_sanitation`(改良卫生设施配备情况,取值范围0.0–1.0)、`malaria_treatment_artemisinin`(青蒿素类疟疾治疗服务覆盖情况,取值范围0.0–1.0)、`sector`(所属领域,取值为卫生)及另外1个字段。 --- ## 快速入门 python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-sdg-all") train = ds["train"].to_pandas() test = ds["test"].to_pandas() print(train.shape) train.head() --- ## 字段结构 | 字段名 | 类型 | 空值占比 | 取值范围/示例值 | |---|---|---|---| | `facility_name` | 对象型 | 2.0% | 诊所、初级卫生保健中心、卫生所 | | `facility_type_display` | 对象型 | 0.3% | 初级卫生保健中心、卫生所、初级卫生保健中心(PHC) | | `maternal_health_delivery_services` | 64位浮点型 | 2.0% | 0.0 – 1.0(均值0.6256) | | `emergency_transport` | 布尔型 | 0.0% | | | `skilled_birth_attendant` | 64位浮点型 | 2.6% | 0.0 – 1.0(均值0.4047) | | `num_chews_fulltime` | 64位浮点型 | 1.3% | 0.0 – 80.0(均值2.0773) | | `phcn_electricity` | 64位浮点型 | 12.8% | 0.0 – 1.0(均值0.4022) | | `c_section_yn` | 64位浮点型 | 1.6% | 0.0 – 1.0(均值0.1563) | | `child_health_measles_immun_calc` | 64位浮点型 | 14.0% | 0.0 – 1.0(均值0.7326) | | `num_nurses_fulltime` | 64位浮点型 | 7.3% | 0.0 – 513.0(均值0.9548) | | `num_nursemidwives_fulltime` | 64位浮点型 | 2.9% | 0.0 – 431.0(均值1.0024) | | `num_doctors_fulltime` | 64位浮点型 | 6.3% | 0.0 – 378.0(均值0.5895) | | `date_of_survey` | 纳秒级日期时间型 | 0.0% | | | `facility_id` | 对象型 | 0.0% | TSTEW、CJKVV、YISJY | | `community` | 对象型 | 0.3% | 阿杰古勒、纳萨拉瓦、奥沃德 | | `ward` | 对象型 | 0.6% | 1、2、3 | | `management` | 对象型 | 13.9% | 公立、私立、信仰运营 | | `improved_water_supply` | 64位浮点型 | 13.0% | 0.0 – 1.0(均值0.4688) | | `improved_sanitation` | 64位浮点型 | 0.2% | 0.0 – 1.0(均值0.4544) | | `vaccines_fridge_freezer` | 64位浮点型 | 14.2% | 0.0 – 1.0(均值0.2142) | | `antenatal_care_yn` | 64位浮点型 | 2.0% | 0.0 – 1.0(均值0.7303) | | `family_planning_yn` | 64位浮点型 | 2.2% | 0.0 – 1.0(均值0.5817) | | `malaria_treatment_artemisinin` | 64位浮点型 | 1.9% | 0.0 – 1.0(均值0.7809) | | `sector` | 对象型 | 0.0% | 卫生 | | `formhub_photo_id` | 对象型 | 0.0% | 1343740074336.jpg、1345807965911.jpg、1338021515767.jpg | | `gps` | 对象型 | 0.0% | 13.02249549 7.6687652 518.0999755859375 5.0、9.48369871 9.15410417 1157.300048828125 5.0、6.80233873 9.03228821 213.5 5.0 | | `survey_id` | 对象型 | 0.0% | 451a0efb-5fa6-4bad-93cd-7cf19eb50833、36ea8fd1-cdee-46cc-8a7e-68b55bb68d6f、c3ddc64d-12ff-457e-8e59-4fb9547208da | | `unique_lga` | 对象型 | 0.0% | | | `latitude` | 64位浮点型 | 0.0% | 4.2818 – 13.865(均值8.5873) | | `longitude` | 64位浮点型 | 0.0% | 2.7078 – 14.6364(均值7.2386) | | `esa_source` | 对象型 | 0.0% | | | `esa_processed` | 对象型 | 0.0% | | --- ## 数值统计摘要 | 字段名 | 最小值 | 最大值 | 均值 | 中位数 | |---|---|---|---|---| | `maternal_health_delivery_services` | 0.0 | 1.0 | 0.6256 | 1.0 | | `skilled_birth_attendant` | 0.0 | 1.0 | 0.4047 | 0.0 | | `num_chews_fulltime` | 0.0 | 80.0 | 2.0773 | 1.0 | | `phcn_electricity` | 0.0 | 1.0 | 0.4022 | 0.0 | | `c_section_yn` | 0.0 | 1.0 | 0.1563 | 0.0 | | `child_health_measles_immun_calc` | 0.0 | 1.0 | 0.7326 | 1.0 | | `num_nurses_fulltime` | 0.0 | 513.0 | 0.9548 | 0.0 | | `num_nursemidwives_fulltime` | 0.0 | 431.0 | 1.0024 | 0.0 | | `num_doctors_fulltime` | 0.0 | 378.0 | 0.5895 | 0.0 | | `improved_water_supply` | 0.0 | 1.0 | 0.4688 | 0.0 | | `improved_sanitation` | 0.0 | 1.0 | 0.4544 | 0.0 | | `vaccines_fridge_freezer` | 0.0 | 1.0 | 0.2142 | 0.0 | | `antenatal_care_yn` | 0.0 | 1.0 | 0.7303 | 1.0 | | `family_planning_yn` | 0.0 | 1.0 | 0.5817 | 1.0 | | `malaria_treatment_artemisinin` | 0.0 | 1.0 | 0.7809 | 1.0 | --- ## 数据整理流程 原始数据通过CKAN API从OpenAfrica下载,并转换为Parquet格式。字段名统一转为小写并采用蛇形命名法(snake_case)标准化。常见空值标记(`N/A`、`null`、`none`、`-`、`unknown`、`no data`、`#N/A`)统一替换为`NaN`。移除17条完全重复的记录。基于解析成功率(阈值>85%),将12个字段从字符串类型转换为数值型或日期时间型。使用固定随机种子(42)将数据集按80/20比例划分为训练集与测试集,并以Snappy压缩格式的Parquet文件保存。 --- ## 局限性 - 数据源自非洲代码计划,未经过Electric Sheep Africa(ESA)的独立验证。 - 自动化清洗无法修正原始数据采集中的错报值、定义不一致或抽样偏差问题。 - 请查阅[原始HDX数据集页面](https://open.africa/dataset/health-facilities-in-nigeria)获取发布方提供的方法说明与注意事项。 --- ## 引用 bibtex @dataset{openafrica_africa_sdg_all, title = {Health Facilities in Nigeria}, author = {Code for Africa}, year = {2023}, url = {https://open.africa/dataset/health-facilities-in-nigeria}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} } --- *[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — 非洲机器学习数据集基础设施,尼日利亚拉各斯。*
提供机构:
electricsheepafrica
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作