electricsheepafrica/africa-demographics-south-sudan
收藏Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-demographics-south-sudan
下载链接
链接失效反馈官方服务:
资源简介:
该数据集记录了南苏丹的人口流动情况,由国际移民组织(IOM)通过其流动监测登记(FMR)系统收集。数据集包含国家层面的聚合数据,涵盖了地理、时间、人口统计、结果测量等多个方面的变量。数据最后更新于2025年5月5日,地理范围为南苏丹(SSD)。数据集经过Electric Sheep Africa整理,转换为适合机器学习的Parquet格式。
This dataset documents population movements in South Sudan, collected by the International Organization for Migration (IOM) through its Flow Monitoring Registry (FMR) system. The dataset includes country-level aggregates, covering variables in geographic, temporal, demographic, and outcome measurement categories. The data was last updated on HDX on 2025-05-05, with a geographic scope of SSD. The dataset has been curated by Electric Sheep Africa into ML-ready Parquet format.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集由海德堡地理信息技术研究所(HeiGIT)通过其GAIA管线构建,整合了WorldPop、OpenStreetMap及Google Earth Engine等开源数据源,并基于HDX的行政边界(COD-AB)进行聚合。原始数据从HDX平台经CKAN API下载后,由Electric Sheep Africa转换为Parquet格式,完成列名规范化(统一为小写蛇形命名)及缺失值统一处理(将N/A、null等标记替换为NaN)。最终以固定随机种子(42)按80/20比例划分为训练集(63条)和测试集(15条),并存储为Snappy压缩的Parquet文件。
特点
数据集以南苏丹行政二级区为分析单元,提供79行、11列的结构化表格数据,涵盖人口构成(按年龄与性别细分)、农村人口占比、基础设施可及性(教育设施、医院及初级医疗机构的距离与数量)、防洪能力(分位淹没深度及重现期下的人口与设施暴露度)等风险评估指标。所有变量无缺失值,数值范围从0到40万余人次,其中农村人口占比均值高达77.67%,凸显该国人口分布的乡村主导特征。
使用方法
用户可通过HuggingFace的datasets库直接加载该数据集,执行`load_dataset('electricsheepafrica/africa-demographics-south-sudan')`即可获取预分割的训练与测试集。数据可直接转换为Pandas DataFrame以供后续分析,适用于构建洪水灾害风险评估模型、人口脆弱性制图或基础设施规划等任务。每个样本对应一个行政二级区的综合指标,地理编码(adm2_pcode)可用于与GIS图层进行空间关联分析。
背景与挑战
背景概述
在灾害风险管理和人道主义援助领域,精准的风险评估是制定有效应对策略的基石。由海德堡地理信息技术研究所(HeiGIT)于2026年创建的africa-demographics-south-sudan数据集,聚焦于南苏丹这一冲突与气候脆弱性交织的地区,旨在提供二级行政单元级别的洪水灾害风险结构化评估。该数据集整合了WorldPop、OpenStreetMap与Google Earth Engine等多源开放数据,涵盖人口分布、基础设施可达性、医疗教育设施密度及洪水暴露程度等核心指标,为量化区域应对能力与人口脆弱性提供了统一的分析框架。作为HeiGIT风险评估指标集合的一部分,该数据集已通过人道数据交换平台(HDX)发布,并由Electric Sheep Africa转化为机器学习就绪格式,显著提升了其可复现性与跨学科应用潜力,对于推动数据驱动的非洲灾害韧性研究具有示范意义。
当前挑战
该数据集所解决的领域挑战在于,南苏丹面临洪水威胁时,缺乏整合了人口动态、基础设施脆弱性与地理暴露度的结构化评估工具,传统方法常因数据分散或时效性不足而无法支撑精准决策。在构建过程中,挑战包括:从WorldPop与JRC等异构源中统一人口与洪水暴露数据的空间分辨率与时间尺度,消除因行政边界变动或数据缺失导致的偏差;将开放街道地图中非标准化设施标签映射为可量化指标,面对信息稀疏的乡村区域则需依赖GHSL土地利用分类以界定城乡人口分布,而这一过程易引入定义性不一致;此外,数据集仅涵盖79条记录(63训练/15测试),样本量极小且依赖单一机构源(HeiGIT),未经独立验证,统计效力与泛化能力受限,需谨慎用于模型训练与推断。
常用场景
经典使用场景
在灾害风险评估与减灾研究领域,该数据集的核心应用在于构建洪水灾害的多维度风险指标体系。研究者可基于南苏丹二级行政区的数据,将人口脆弱性、社区应对能力与洪水暴露度进行量化耦合,依托其提供的脆弱人群分布、关键设施覆盖及应对能力指标,系统评估不同区域在30厘米洪水淹没情景下的综合风险等级。其典型范式是通过融合世界人口数据、开放街景与全球人类居住层等开放资源,为低数据环境中的人道主义应急响应提供可计算、可复现的决策支持基准。
实际应用
在实际应用层面,该数据集为人道主义组织的灾前规划与应急资源调配提供了精细化的空间决策工具。其数据可用于识别南苏丹各县域中因洪水暴露而面临最高风险的教育与医疗设施,辅助援助机构优化避难所选址及医疗物资预部署。同时,非政府组织可依据其提供的农村人口比例与年龄性别构成,设计针对性的防灾宣传与社区韧性建设方案,尤其关注儿童与老年群体的转移优先策略,从而显著提升有限救援资源在脆弱地区的配置效率。
衍生相关工作
该数据集衍生了一系列针对非洲人道主义情境的机器学习基准工作。代表性研究包括:基于其多维指标训练的分类模型,用于预测各行政区的灾害应对等级;另有工作将其与历史灾害数据结合,构建了南苏丹洪水风险时空预测框架。此外,该数据集已作为HeiGIT风险指标收集体系的核心组件,被集成至QGIS风险分析插件中,成为开源地理信息工具链的标准评估输入,有效推动了灾害科学中数据驱动方法与现场经验的协同演进。
以上内容由遇见数据集搜集并总结生成



