electricsheepafrica/africa-aid-flows-south-sudan
收藏Hugging Face2026-04-29 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-aid-flows-south-sudan
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为南苏丹:综合背景分析(ICA),2016,由世界粮食计划署(WFP)发布,来源于人道主义数据交换平台(HDX)。数据集结合了多年粮食安全趋势与自然灾害风险数据,用于制定减少粮食不安全和气候相关冲击风险的战略计划。数据以表格形式呈现,包含97行和14列,分为训练集(77行)和测试集(19行)。数据集经过Electric Sheep Africa整理,适用于机器学习任务。地理范围覆盖南苏丹(SSD)。
The dataset is titled South Sudan: Integrated Context Analysis (ICA), 2016, published by the World Food Programme (WFP) and sourced from the Humanitarian Data Exchange (HDX). It combines multi-year food security trends with natural shock risk data to produce a strategic plan for reducing food insecurity and climate-related shock risks. The data is presented in tabular format with 97 rows and 14 columns, split into training (77 rows) and test (19 rows) sets. Curated by Electric Sheep Africa for machine learning applications, the dataset covers the geographic scope of South Sudan (SSD).
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集以南苏丹的行政边界与定居点数据为核心,源自人道主义数据交换平台(HDX),由OCHA南苏丹办公室、国家统计局及MapAction等机构联合编纂。原始数据基于苏联1970年代200k比例尺地形图数字化而来,并经过南苏丹机构间信息管理工作组、国家统计局及MapAction的清理与PCode编码。Electric Sheep Africa团队通过CKAN API获取原始数据,将其转化为机器学习友好的Parquet格式:列名统一为小写蛇形命名法,缺失值标记标准化为NaN,并移除缺失率超80%的冗余列(如featurealt、admin4pcod等)。最终以固定随机种子42将数据按80/20比例划分为训练集与测试集,采用Snappy压缩格式存储。
特点
数据集涵盖南苏丹全部行政区划层级(从州级至村落级),包含18,977行观测记录、21个特征字段,其中含3个数值型、16个类别型及2个时间型变量。地理信息完备,提供经纬度坐标及人口聚居地分类(人口密集度评分0-8),并细分至第四级行政单元(Payam)。时间维度以date与validon字段记录数据时效性。类别变量中admin2name、admin1name等字段完整性高,但admin3name与admin4name缺失率分别达42.6%和39.7%。数值特征popplacecl均值5.98,反映南苏丹定居点以中小型村落为主的地理分布特征。
使用方法
通过HuggingFace Datasets库可便捷加载:使用load_dataset()函数直接获取预划分的训练与测试子集,并可转换为Pandas DataFrame进行探索性分析。建议重点关注地理坐标(point_x, point_y)与行政编码(pcode)字段,结合popplacecl人口密度变量进行空间聚类或资源分配建模。对于admin4name等高缺失率类别字段,需谨慎处理缺失值或采用特征编码策略。该数据集可直接用于南苏丹人道主义援助规划、基础设施可达性分析或行政边界一致性校验等任务,亦可作为地理空间机器学习模型的训练基准。
背景与挑战
背景概述
该数据集由联合国人道主义事务协调厅(OCHA)南苏丹办事处与MapAction、国家统计局等机构联合创建,并于2025年2月更新,旨在提供南苏丹行政边界及居民点的高分辨率地理编码信息。其核心研究问题聚焦于人道主义援助与灾后重建中的空间数据可及性与标准化,通过数字化1970年代俄罗斯地形图,整合了从州级到村级的多层级行政区划编码(P-Code),为精准的救助资源分配与冲突影响评估提供了关键基础设施。数据集经Electric Sheep Africa转化为机器学习就绪的Parquet格式,显著降低了下游模型应用的数据预处理门槛,推动了非洲人道主义领域数据科学的发展。
当前挑战
该数据集所解决的领域挑战在于填补南苏丹长期冲突与基础设施薄弱导致的高质量地理空间数据空白,使得原本依赖纸质地图或碎片化信息的援助机构能够基于统一编码进行跨区域协调与政策制定。构建过程中面临的挑战包括:原始俄罗斯地形图年代久远(1970年代),部分边界与实际现状存在偏差;多来源数据(国际工作组、统计局、NGO)导致命名规则与缺失值标记不统一,约40%的村级(admin4name)与42.6%的区级(admin3name)字段存在缺失;此外,从非结构化HDX原始数据提取、清洗并转化为结构化Parquet格式时,需手动剔除7列高缺失率变量,并依靠固定随机种子分割训练集与测试集,但自动化清洗无法修正原始采样的系统性偏差或定义歧义,限制了模型在真实部署中的鲁棒性。
常用场景
经典使用场景
该数据集以南苏丹为地理焦点,收录了涵盖行政边界、居民点类型与人口规模等级的多层级地理信息数据。研究者和人道主义分析师常将其用于绘制区域分布图、识别村庄到城镇的聚落层级结构,或作为空间插值与地理加权回归的基础底图。每一条记录均对应一个次国家级行政单元,并与精确经纬度坐标关联,使得该数据在非洲人道主义数据科学领域成为空间建模的标准输入之一。
衍生相关工作
该数据集催生了一系列衍生工作,包括由Electric Sheep Africa团队将其清洗转化为机器学习就绪(ML-ready)的Parquet格式,并划分训练集与测试集以支持监督学习任务。学术社区基于此数据开发了针对低资源区域的空间预测模型、冲突事件与聚落分布的关联性分析管道,以及结合卫星遥感的土地覆盖变化检测基准。这些工作共同构建了从原始人道主义记录到高级空间推断的完整工具链。
数据集最近研究
最新研究方向
当前,南苏丹人道主义援助流数据集的研究前沿正聚焦于如何利用高分辨率行政区划与聚落分类数据(如村庄、城镇等层级信息)驱动冲突影响评估与粮食安全预警模型。依托OCHA及南苏丹国家统计局等权威机构发布的精细化基层行政单元(Payams)空间数据,学术界与NGO正尝试将此类地理编码数据与传统援助流记录进行交叉关联,以识别援助分配中的区域不均衡现象。结合2025年该数据集的定期更新机制,研究者得以捕捉冲突后人口迁移与聚落结构变迁等动态变化,从而为联合国人道主义响应计划提供数据驱动的优化方案。这一方向不仅填补了非洲之角地区精细聚落研究的空白,更通过机器学习友好的Parquet格式开放共享,显著降低了地理空间智能在脆弱地区应用的准入门槛。
以上内容由遇见数据集搜集并总结生成



