electricsheepafrica/africa-aid-flows-sudan
收藏Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-aid-flows-sudan
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为“苏丹:综合背景分析(ICA),2018”,由世界粮食计划署(WFP)发布,旨在通过多年度粮食安全趋势与自然冲击风险数据的结合,突出显示适合不同计划策略的次国家级区域。数据集包含186行和25列,分为训练集(148行)和测试集(37行)。数据经过Electric Sheep Africa整理,转换为Parquet格式,并进行了标准化处理。数据集适用于表格回归任务,涵盖粮食安全和营养领域。
The dataset, titled Sudan: Integrated Context Analysis (ICA), 2018, is published by the World Food Programme (WFP). It combines multi-year food security trends with natural shock risk data to highlight sub-national areas where different programme strategies are appropriate. The dataset contains 186 rows and 25 columns, split into train (148 rows) and test (37 rows) sets. Curated by Electric Sheep Africa, the data is converted to Parquet format and standardized. It is suitable for tabular regression tasks and focuses on food security and nutrition.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界粮食计划署(WFP)发布的2018年苏丹综合背景分析(ICA)报告,原始数据通过HDX平台的CKAN接口获取。Electric Sheep Africa团队对原始数据进行了系统性的清洗与标准化处理,包括将列名统一为小写蛇形命名法、将常见缺失值标记统一转换为NaN、移除缺失率超过80%的冗余列,并依据字符串解析成功率(高于85%)将17列数据自动转换为数值或日期类型。最终数据以Snappy压缩的Parquet格式存储,并按照80/20的比例随机划分(固定种子42)为训练集(148行)和测试集(37行),形成一个可直接用于机器学习回归任务的表格型数据集。
特点
该数据集聚焦于苏丹粮食安全与气候风险的综合分析,包含186条表格记录和25个特征列(22个数值型、3个类别型),核心目标变量为“count_of_value_recurrence”(取值范围0.0–10.0),用于量化特定模式的重现程度。数据覆盖苏丹全境次国家级区域,融合了多年粮食安全趋势与自然灾害风险数据,能够揭示不同区域在安全网建设、灾害抵御和早期预警等方面的战略适配性。其独特价值在于将多维度地学信息(如营养、生计、性别)浓缩为结构化表格,为粮食安全领域的回归建模与区域策略规划提供了精准的量化基础。
使用方法
用户可通过HuggingFace Datasets库便捷加载该数据集,仅需一行代码`load_dataset("electricsheepafrica/africa-aid-flows-sudan")`即可获取训练与测试拆分,并可直接转换为Pandas DataFrame进行后续分析。该数据集专为表格回归任务设计,适合用于预测粮食安全指标的重现频率、评估灾害风险等级或构建区域战略分类模型。使用时应留意原始数据未经独立验证的局限性,建议结合WFP官方方法说明(参见HDX原始页面)对模型结果进行审慎解读,尤其在涉及人道主义决策的场景中需避免自动化清洗可能引入的偏差。
背景与挑战
背景概述
非洲苏丹地区长期面临粮食安全与气候冲击的双重威胁,精准的人道主义援助规划成为缓解贫困与饥饿的关键。基于此背景,世界粮食计划署(WFP)于2018年发布了苏丹综合背景分析(ICA)数据集,并经Electric Sheep Africa于2025年整理为机器学习就绪格式。该数据集将多年粮食安全趋势与自然灾害风险数据相结合,旨在识别次国家区域中不同援助策略的适用性,如安全网、减灾备灾及早期预警等。作为人道主义数据交换(HDX)平台上的重要资源,它为算法驱动的援助分配研究提供了结构化基础,推动了数据科学在非洲粮食安全领域的应用。
当前挑战
该数据集面临的首要挑战是如何将稀疏且异质的粮食安全与灾害指标转化为可泛化的预测模型,以应对苏丹境内复杂的饥饿动态,这要求模型能从小样本(仅185条记录)中提取稳健模式。其次,数据构建过程中存在多重技术难点:原始数据来自多源调查,需统一缺失值标记、标准化列名并处理超过80%缺失率的噪声特征;同时,因地理范围限定于苏丹,模型在跨区域推广时易受地域偏差与定义不一致的影响,且缺乏独立验证,难以保证自动清洗能完全纠正原数据中的采样偏差与报告误差。
常用场景
经典使用场景
在粮食安全与气候风险交叉研究领域,africa-aid-flows-sudan数据集为构建次国家级战略规划模型提供了关键支撑。该数据集源自世界粮食计划署(WFP)的整合背景分析(ICA),融合了多年度粮食安全趋势与自然灾害风险数据,可精准刻画不同次区域中应对粮食不安全与气候冲击的适宜干预策略组合。研究者通常利用其表格回归特性,以‘count_of_value_recurrence’为目标变量,探索安全网、备灾、早期预警等干预主题的空间适配性,从而为脆弱地区的精准施策提供数据驱动的决策依据。
实际应用
在实际应用层面,该数据集直接服务于人道主义援助的精准布局与资源优化配置。人道主义机构可基于该数据集识别出哪些地区需要持续的社会安全网项目,哪些区域应优先部署防灾减灾与早期预警体系,从而在资金有限的情况下最大化援助效能。此外,该数据也为苏丹国家层面的战略粮食安全规划提供了量化工具,支持政府与非政府组织在设计营养改善、性别平等、生计韧性等专项方案时,将分析结果转化为具有空间指向性的行动指南,减少决策中的盲区与资源错配。
衍生相关工作
基于该数据集,学界与业界已衍生出多项标志性工作。一方面,研究者将其作为基准输入,开发了基于机器学习的粮食不安全风险预测模型,通过拟合次区域历史模式来推演未来冲击下的脆弱性演进。另一方面,Electric Sheep Africa等机构围绕该数据开展了表格数据的标准化清理与机器学习就绪格式转换工作,推动了开放数据(ODbL许可)在非洲人道主义分析中的规范使用。此外,该数据集还激发了关于‘ICA方法论向其他脆弱国家迁移’的对比研究,以及将之与人口迁徙、市场可达性等辅助数据融合的多学科联合分析框架构建。
以上内容由遇见数据集搜集并总结生成



