africa-displacement-mozambique
收藏Hugging Face2026-04-28 更新2026-04-29 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-displacement-mozambique
下载链接
链接失效反馈官方服务:
资源简介:
该数据集记录了2019年热带气旋Idai对莫桑比克马尼卡、索法拉和赞比西亚省造成的影响,包含受灾人口数量、需求、地理位置等信息。数据集由国际移民组织(IOM)通过HDX平台发布,包含188条设施或站点记录,共62个字段(17个数值型、43个分类变量、2个时间类型)。数据按80/20比例划分为训练集(150条)和测试集(37条)。主要变量包括地理信息(省份、地区编码等)、时间信息(报告日期、评估日期)、人口统计(受影响家庭/人数等)和需求评估(首要需求等)。数据集经过Electric Sheep Africa处理为Parquet格式,适用于表格分类/回归等机器学习任务。需注意部分字段存在较高缺失值比例(如受灾前家庭数量字段缺失率达32.4%)。
创建时间:
2026-04-23
原始信息汇总
数据集概述:Mozambique Displacement Data - Baseline Assessment - Idai - [IOM DTM]
基本信息
- 数据集名称: Mozambique Displacement Data - Baseline Assessment - Idai - [IOM DTM]
- 发布机构: International Organization for Migration (IOM)
- 数据来源: HDX
- 许可证:
hdx-other - 最近更新: 2025-04-29
- 数据集整理: Electric Sheep Africa
- 语言: 英语(单语)
摘要
本数据集记录了2019年3月15日热带气旋伊代(Cyclone Idai)袭击莫桑比克后,对马尼卡省(Manica)、索法拉省(Sofala)和赞比西亚省(Zambézia)造成的影响。数据集包含国际移民组织(IOM)的流动人口跟踪(DTM)评估结果,涵盖受影响人数、需求、地理位置等信息。每行代表一个设施或站点记录,时间覆盖由 date_reported 和 date_of_assessment 列指示,地理范围限定在莫桑比克(MOZ)。
数据集特征
| 属性 | 值 |
|---|---|
| 领域 | 公共卫生 |
| 观测单位 | 设施或站点记录 |
| 总行数 | 188 |
| 列数 | 62(17个数值型,43个类别型,2个日期时间型) |
| 训练集 | 150行 |
| 测试集 | 37行 |
| 地理范围 | MOZ(莫桑比克) |
变量分类
地理变量
1_1_e_2_province_admin_1:省份(Sofala, Manica, Zambezia)province_pcode:省份代码(MZ09, MZ04, MZ11)1_1_e_3_district_admin_2:地区(Cidade da Beira, Sussundenga, Nhamatanda)district_pcode:地区代码(MZ0906, MZ0410, MZ0913)1_1_e_4_post_admin_3:行政区- 另外34个地理相关变量
时间变量
date_reported:报告日期date_of_assessment:评估日期
人口统计变量
total_households_affected:受影响家庭数(9.0–25600.0)total_individuals_affected:受影响人数(45.0–88200.0)select_number_or_percentage:数量或百分比选择number_of_household_living_in_their_own_house:居住在自己房屋的家庭数(9.0–25600.0)number_of_individual_living_in_their_own_home:居住在自己家的人数(45.0–76677.0)- 另外10个相关变量
结果/测量变量
round_number:评估轮次(范围6.0–6.0)
标识符/元数据变量
esa_source:数据来源esa_processed:处理标记
其他变量
first_most_need:首要需求second_most_need:次要需求third_most_need:第三需求
关键数值摘要
| 列名 | 最小值 | 最大值 | 均值 | 中位数 |
|---|---|---|---|---|
total_households_affected |
9.0 | 25600.0 | 2548.1 | 1361.0 |
total_individuals_affected |
45.0 | 88200.0 | 11588.6 | 6992.0 |
total_househoulds_in_locality_before_the_cyclone |
311.0 | 85140.0 | 5834.2 | 3781.0 |
total_individuals_in_locality_before_the_cyclone |
0.0 | 3749455.0 | 55989.0 | 19061.5 |
数据拆分
- 训练集: 150条记录(约80%)
- 测试集: 37条记录(约20%)
- 拆分方式: 随机固定种子(42)80/20划分
数据预处理
- 原始数据通过CKAN API从HDX下载,转换为Parquet格式
- 列名统一为小写蛇形命名法(snake_case)
- 常见缺失值标记(N/A, null, none, -, unknown等)统一为NaN
- 移除了28个缺失率>80%的列
- 7个列根据解析成功率(>85%)从字符串转换为数值或日期时间类型
- 使用Snappy压缩的Parquet格式保存
局限性
- 数据源自IOM,未经Electric Sheep Africa独立验证
- 自动化清洗无法纠正原始收集中的错误报告、定义不一致或抽样偏差
- 以下列缺失值超过20%,在建模中需谨慎处理:
total_househoulds_in_locality_before_the_cycloneselect_number_or_percentage_2number_of_household_who_received_the_shelter_kitnumber_of_individual_who_received_the_shelter_kithow_did_they_use_itnumber_of_household_1number_of_individual_1estimate_perecentage_1
引用格式
bibtex @dataset{hdx_africa_displacement_mozambique, title = {Mozambique Displacement Data - Baseline Assessment - Idai - [IOM DTM]}, author = {International Organization for Migration (IOM)}, year = {2025}, url = {https://data.humdata.org/dataset/mozambique-displacement-data-baseline-assessment-idai-iom-dtm}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }
搜集汇总
数据集介绍

构建方式
该数据集源自国际移民组织(IOM)在莫桑比克热带气旋伊代(Idai)灾后开展的流离失所跟踪矩阵(DTM)基线评估。原始数据通过HDX平台的CKAN API下载,并经由Electric Sheep Africa团队转化为机器学习就绪的Parquet格式。数据清洗过程中,列名被统一为小写蛇形命名,常见缺失值标记如'N/A'、'null'等被归一化为NaN。缺失率超过80%的28列被移除,7列基于解析成功率高于85%的标准从字符串转换为数值或时间类型。最终按80/20比例随机切分为训练集(150行)与测试集(37行),并以Snappy压缩的Parquet格式存储。
使用方法
用户可通过HuggingFace Datasets库快速加载数据,使用`load_dataset("electricsheepafrica/africa-displacement-mozambique")`命令即可获取训练与测试子集。数据加载后可直接转换为Pandas DataFrame进行探索分析与建模。该数据集适用于分类与回归任务,如预测受灾程度、识别关键需求模式,或评估灾后恢复进程。由于数据来自人道主义评估,建议结合原始HDX页面上的方法论说明,对缺失值处理与特征选择进行针对性设计,以保障模型的有效性与可靠性。
背景与挑战
背景概述
在2019年3月,热带气旋伊代(Cyclone Idai)侵袭莫桑比克中部的马尼卡、索法拉和赞比西亚三省,引发严重洪涝与建筑物损毁,导致大规模人口流离失所。为系统评估灾后人口迁移态势及人道主义需求,国际移民组织(IOM)依托其流离失所追踪矩阵(DTM)框架,开展了基线评估调查,并于2025年4月发布了该数据集。该数据集由非洲机器学习基础设施团队Electric Sheep Africa整理并转化为机器学习就绪的Parquet格式,涵盖了受灾害影响的家庭与个体数量、地理位置、核心需求以及庇护与生计恢复状况等62项变量。其核心研究问题聚焦于灾后人口流动模式的量化表征与人道主义响应优先级的研判,为人道主义援助与灾后重建规划提供了关键数据支撑,对推动灾害管理与人口流离失所领域的机器学习研究具有重要价值。
当前挑战
该数据集所解决的领域挑战在于,灾害驱动的人口流离失所问题长期缺乏结构化、可机读的标准数据集,使得对灾后人口迁移模式与资源分配优先级的量化建模难度极高。研究人员难以高效地从分散、非结构化的报告中提取有效特征进行预测或决策支持。在构建过程中,原始数据源自IOM通过DTM框架收集的评估表格,存在显著的缺失值问题——例如,多列缺失率超过20%,更有28个列因缺失值占比超过80%而被直接剔除;同时,字段的定义差异(如对“受影响”与“返回人口”的界定标准不统一)、地理编码的粒度不一以及调查样本中潜在的系统性偏差,均对数据清洗与标准化构成了严峻挑战。Electric Sheep Africa团队通过统一缺失值标记、执行格式转换与基于随机种子的80/20划分,部分缓解了这些问题,但原始调查的质量限制仍是该数据集应用时必须审慎考量的核心障碍。
常用场景
经典使用场景
该数据集聚焦于2019年热带气旋伊代(Cyclone Idai)对莫桑比克马尼卡、索法拉和赞比西亚三省的冲击,记录了受灾人口数量、流离失所状况、基本需求及地理位置等关键信息。经典使用场景包括构建灾后人口流离失所预测模型、评估受灾家庭的物资需求分布、以及分析灾后恢复进程中的时空动态。研究人员可利用其丰富的分类与数值变量,开展受灾人数与住房恢复情况的回归分析,或利用地理信息进行空间聚类,揭示灾害影响的区域异质性。
解决学术问题
该数据集有效解决了自然灾害与人道主义响应研究中数据稀疏性与异构性的痛点,为量化台风引发的境内流离失所(IDP)规模与特征提供了高粒度基线。学术上,它支撑了灾后脆弱性评估模型的构建,推动了关于灾民回返决策、生计恢复与庇护所修复的影响因素研究。其意义在于将国际移民组织(IOM)的标准调查流程转化为机器学习可用格式,显著降低了数据清洗门槛,促进了跨学科研究团队对非洲地区灾害韧性与人道主义援助效能的实证分析。
实际应用
在实际应用中,该数据集为人道主义组织与政府机构提供了灾后资源分配的决策支持。通过分析‘首要需求’与‘庇护所修复状况’等字段,救援团队可精准定位食物、饮水、医疗与庇护材料的投放优先级。国际移民组织与联合国的应急响应部门可将其纳入快速评估系统,动态监测灾民流动模式,优化临时安置点的设立与物流规划。此外,该数据也为商业保险机构评估气候风险指数提供了历史基线,助力非洲地区气候韧性金融产品的开发。
数据集最近研究
最新研究方向
当前,基于非洲灾害流离失所数据的机器学习研究正聚焦于极端气候事件下人口迁移模式的精准建模与预测。该数据集记录了2019年热带气旋“伊代”对莫桑比克马尼卡、索法拉和赞比西亚三省造成的灾后人口流离失所与需求评估信息,为人道主义响应与灾后恢复的定量分析提供了关键支撑。前沿研究方向包括运用表格分类与回归模型识别受灾人口的基本需求优先级、预测庇护所修复与援助物资分配的有效性,以及通过地理空间与人口统计特征探究流离失所者的回流动因。该数据集经标准化清洗与划分后,显著降低了机器学习的应用门槛,推动了数据驱动的人道主义决策在非洲气候脆弱地区的落地实践,具有重要的社会影响与学科交叉意义。
以上内容由遇见数据集搜集并总结生成



