five

electricsheepafrica/africa-displacement-malawi

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-displacement-malawi
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集来自国际移民组织(IOM)的位移跟踪矩阵(DTM)公开API,允许人道主义社区、学术界、媒体、政府和非政府组织利用DTM收集的数据。DTM API仅提供非敏感的国内流离失所者(IDP)数据,按国家、Admin 1(州、省或等效行政区)和Admin 2(较小的次国家行政区)级别汇总。数据集中的每一行代表次国家行政单位的观察结果,时间覆盖范围由`reportingdate`列指示,地理范围为马拉维(MWI)。数据集由Electric Sheep Africa整理为适合机器学习的Parquet格式。

This dataset comes from the International Organization for Migration (IOM)s displacement tracking matrix (DTM) publicly accessible API. This API allows the humanitarian community, academia, media, government, and non-governmental organizations to utilize the data collected by DTM. The DTM API only provides non-sensitive IDP figures, aggregated at the country, Admin 1 (states, provinces, or equivalent), and Admin 2 (smaller subnational administrative areas) levels. Each row in this dataset represents subnational administrative unit observations. Temporal coverage is indicated by the `reportingdate` column(s). Geographic scope: MWI. Curated into ML-ready Parquet format by Electric Sheep Africa.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由Electric Sheep Africa精心构建,原始数据源自人道主义数据交换(HDX)平台,通过CKAN API获取马拉维境内流离失所者(IDP)站点信息,经国际移民组织(IOM)收集并由联合国人道主义事务协调厅(OCHA)东南非区域办事处发布。构建过程中,原始数据被转换为Parquet格式,列名统一为小写蛇形命名法,常见缺失值标记被归一化为NaN,并剔除了缺失率超过80%的列。最终,利用固定随机种子将数据按80/20比例划分为训练集和测试集,并以Snappy压缩格式存储,确保数据高效可用。
特点
该数据集聚焦于非洲马拉维的强迫流离失所与人口迁移领域,包含253条站点记录,涵盖31个字段,涉及地理空间、人口统计及站点属性等多维度信息。地理特征包括经纬度坐标与行政区划,人口统计字段涵盖家庭总数、男女个体数,站点属性则包含状态、用途及类别等。数据中家庭总数与个体总数跨度极大,从0到2300户及0到9150人,反映了站点规模的高度异质性,为深入分析流离失所模式提供了丰富素材。
使用方法
数据集以Parquet格式呈现,可通过HuggingFace Datasets库便捷加载。用户只需执行一行Python代码即可获取训练与测试切分,并可通过to_pandas方法轻松转化为DataFrame以供进一步分析。该数据适用于构建预测模型评估IDP站点规模、进行地理空间聚类分析或探索人口流动模式。值得注意的是,site_name2列缺失率超过20%,在建模时应谨慎处理,同时用户应参考原始HDX页面获取更详尽的收集方法说明。
背景与挑战
背景概述
在非洲大陆,因冲突、自然灾害与气候变化导致的被迫流离失所现象日益严峻,精准的人道主义数据成为制定有效干预措施的关键。由联合国人道主义事务协调厅(OCHA)东南非区域办公室于2026年发布,并由Electric Sheep Africa整理为机器学习就绪格式的africa-displacement-malawi数据集,聚焦于马拉维国内流离失所者(IDP)营地与收容设施的空间分布、人口构成与运营状态。该数据集共含253条记录,覆盖31个变量,涵盖地理位置、家庭规模、性别比例及营地类型等核心指标,为分析难民聚集模式与资源配置提供了稀缺的结构化公共数据。作为非洲人道主义领域首个面向机器学习的营地表数据集,它填补了该地区高粒度流离失所数据的空白,支持从统计建模到灾害响应优化的跨学科研究。
当前挑战
该数据集面临的核心挑战源于人道主义数据收集的本质局限:第一,数据来源于OCHA的单一渠道,未经独立验证,存在报告误差与定义不一致的风险,例如部分营地状态(如‘已关闭’)可能与实际情况存在时滞,影响分类模型的可靠性。第二,构建过程中(由HDX原始数据经清洗转换)遭遇了严重缺失值问题——‘site_name2’列的缺失率高达43.5%,另有3个超过80%缺失的列被直接剔除,这种高维稀疏性限制了多变量分析的稳健性。第三,地理覆盖仅限马拉维,无法直接推广至其他非洲国家,且原始采样可能存在偏向易于调查区域的偏差,使得模型在预测偏远或冲突活跃地点的流离失所动态时面临泛化困境。
常用场景
经典使用场景
在强迫流离失所与人道主义援助领域,africa-displacement-malawi数据集为马拉维境内流离失所者(IDP)营地的空间分布与人口结构分析提供了基础数据支撑。该数据集收录了253条设施或场所记录,涵盖地理坐标、营地状态、家庭与个体总数、性别构成等31个字段,可服务于流离失所人群的时空分布建模与态势评估。研究人员常利用该数据集进行营地规模聚类分析、人口统计数据插补,以及受灾区域的可视化制图,从而揭示马拉维国内流离失所问题的空间格局与资源分配不均等结构特征。
解决学术问题
该数据集有效解决了非洲流离失所研究中长期存在的数据可获取性差、标准化程度低与要素维度单一等学术困境。通过集成来自人道数据交换(HDX)平台的官方营地记录,并经过清洗、格式统一与80/20训练测试分割等预处理流程,研究者得以在统一框架下开展营地关闭预测、人口流动趋势推演、性别比例失衡分析等定量研究。其意义在于为数据驱动的流离失所政策评估提供了可靠起点,推动人道主义干预从经验判断向循证决策转型,尤其有助于揭示南部非洲地区周期性灾害下的脆弱人群分布规律。
衍生相关工作
围绕该数据集衍生了多项具有示范意义的学术与工程实践。相关经典工作包括基于机器学习算法的营地关闭风险预测模型,利用营地类别、原有土地使用类型与可达性等分类特征,构建随机森林或梯度提升分类器以实现早期预警;另一条研究主线聚焦于人口数据空间化,借助地统计插值与核密度估计方法,将离散的营地人口普查数据扩展至连续地理面,从而支撑更精细的脆弱性制图。此外,该数据还常与卫星遥感影像或移动通信信令数据融合,形成多模态流离失所监测框架,为人道主义数据科学领域提供了可复用的分析范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作