electricsheepafrica/africa-aid-flows-malawi
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-aid-flows-malawi
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是关于马拉维2014年综合背景分析(ICA)的表格记录,旨在通过多年度粮食安全趋势与自然灾害风险数据的结合,为减少粮食不安全和气候相关冲击风险提供战略规划支持。数据集包含32行记录,分为25行训练集和6行测试集,涵盖13个变量(10个数值型,3个分类型)。数据由世界粮食计划署(WFP)发布,并由Electric Sheep Africa从HDX获取并转换为Parquet格式,进行了标准化和缺失值处理。
This dataset contains tabular records from the Malawi Integrated Context Analysis (ICA) 2014, designed to support strategic planning for reducing food insecurity and climate-related shock risks by combining multi-year food security trends with natural shock risk data. The dataset includes 32 rows, split into 25 training rows and 6 test rows, with 13 variables (10 numeric, 3 categorical). The data was published by the World Food Programme (WFP) and curated by Electric Sheep Africa from HDX into Parquet format, with standardization and missing-value handling applied.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
构建方式
该数据集源自世界粮食计划署(WFP)发布的马拉维综合背景分析(ICA),原始数据通过HDX平台的CKAN API获取,并经由Electric Sheep Africa团队以机器学习友好格式重新封装。原始表格记录经过清洗与标准化处理:列名统一转换为小写蛇形命名,常见缺失值标记(如N/A、null等)均归并为NaN,并删除了缺失率超过80%的两个无关列。此外,基于解析成功率阈值将9列从字符串类型转换为数值或日期类型。最终按80/20比例随机划分为训练集(25条)与测试集(6条),保存为Snappy压缩的Parquet格式。
特点
数据集涵盖马拉维全国范围内粮食安全与气候灾害风险的整合分析,共包含32条表格记录、13个字段(10个数值型、3个分类型)。核心变量为'food_security_ica_3pt_score'(范围0.0–3.0),用以刻画次国家级区域的粮食安全脆弱性等级。值得注意的是,多列存在不同程度的缺失值,其中'unnamed_6'列缺失率高达53.1%,在建模中需谨慎对待。此外,数据集规模虽小,却浓缩了WFP专家团队通过多轮磋商与空间数据映射形成的战略规划成果,兼具地理与社会经济维度。
使用方法
该数据集专为表格回归任务设计,可直接通过HuggingFace Datasets库加载。用户可运行'load_dataset("electricsheepafrica/africa-aid-flows-malawi")'获取数据,并利用.to_pandas()方法转换为Pandas DataFrame进行探索性分析。建议使用者优先关注缺失值处理,尤其对'unnamed_6'列采用插值或模型填充策略。对于回归建模,可将'food_security_ica_3pt_score'作为目标变量,其余字段作为特征,适用于线性回归、决策树等算法。数据的地理范围仅限马拉维,模型泛化至其他区域时需谨慎验证。
背景与挑战
背景概述
非洲大陆长期面临粮食安全与气候冲击的双重挑战,精准识别脆弱区域并制定针对性的干预策略成为人道主义援助与可持续发展的核心议题。在此背景下,世界粮食计划署(WFP)于2014年发起了马拉维综合背景分析(ICA)项目,旨在通过数据驱动的协商过程,整合多年粮食安全趋势与自然灾害风险信息,为亚国家级区域提供差异化的项目规划依据。该数据集由Electric Sheep Africa于2025年整理并发布在HuggingFace平台,包含了32条表格记录,涵盖粮食安全评分、地理标识及多项社会经济指标。作为连接人道主义数据交换平台(HDX)与机器学习社区的桥梁,该数据集不仅为非洲援助流分析提供了可复用的基准资源,也推动了数据驱动决策在欠发达地区的应用。
当前挑战
该数据集所解决的领域问题主要聚焦于粮食安全与气候风险的空间异质性分析,旨在通过综合背景分析指导援助资源的优化配置,然而原始数据存在采集标准不一、指标定义模糊及采样偏差等固有局限。在构建过程中,团队面临着多重挑战:首先,从HDX获取的原始数据包含大量缺失值,部分列缺失率超过50%,需通过统一编码与阈值筛选进行清洗;其次,数据变量命名不规范,包含多个无明确含义的‘unnamed’字段,增加了特征解释的难度;此外,数据集仅32条记录,样本规模极小,且存在严重的类别不平衡与数值异常值,对机器学习模型的泛化能力构成显著制约。这些挑战凸显了在数据稀缺环境下构建稳健预测模型时的典型困境。
常用场景
经典使用场景
在粮食安全与气候风险交叉研究的学术版图中,africa-aid-flows-malawi数据集作为马拉维综合背景分析(ICA)2014年成果的数字化呈现,为理解区域性粮食不安全动态提供了高价值量化工具。该数据集的经典使用场景聚焦于通过整合多年粮食安全趋势与自然灾害风险数据,构建次国家级别上的项目策略评估模型。研究者利用其包含的粮食安全ICA三分评分及多维度数值变量,可开展精准的区域脆弱性聚类分析,揭示不同行政单元在安全网建设、灾害恢复力提升与早期预警体系建设之间的优先序关系,从而将抽象的政策规划转化为可计算的决策支持框架。
衍生相关工作
基于该数据集已衍生出多项具有启发性的研究工作,其中包括利用机器学习算法对粮食安全ICA评分进行空间预测建模,探索不同缺失值处理策略对模型泛化能力的影响。另有研究者将其与卫星遥感植被指数(如NDVI)进行跨模态融合,验证自然冲击数据与地面调查信息的一致性关系。该数据也作为基准测试集,参与了多任务学习框架中针对非洲人道主义数据迁移学习的性能评估。在更广泛的学科交叉层面,由数据集特征工程出发的方法论探讨,如针对高缺失率列(如unnamed_6)的插值技术比较,为小样本非洲官方网站数据的清洗标准提供了可参考的实践规范。
数据集最近研究
最新研究方向
在全球粮食安全与气候风险交织的背景下,该数据集聚焦于马拉维2014年综合背景分析,通过整合多年粮食安全趋势与自然灾害风险数据,为世界粮食计划署提供分区域战略规划支持。当前前沿方向集中于利用有限样本的表格数据,结合地理空间标签开展回归建模,预测粮食不安全等级与灾害脆弱性热点区域。这在非洲人道主义数据稀缺环境下尤为重要,推动了基于机器学习的精准援助分配研究。同时,该数据集的开放共享促进了跨学科协作,使灾害风险减缓和早期预警系统能够与食品安全目标协同优化,对提升撒哈拉以南非洲抗灾韧性具有实质性意义。
以上内容由遇见数据集搜集并总结生成



