electricsheepafrica/africa-displacement-zambia
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-displacement-zambia
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来自国际移民组织(IOM)的位移跟踪矩阵(DTM)公开API,包含赞比亚国内流离失所者(IDP)的非敏感数据,按国家、Admin 1(州、省或等效行政区)和Admin 2(较小的次国家行政区)级别汇总。数据集包含140行数据,分为112行的训练集和28行的测试集,涵盖23个变量(8个数值型、14个分类型和1个日期时间型)。数据涉及地理、人口统计、时间等多个维度,主要用于冲突与安全领域的表格分类任务。数据集由Electric Sheep Africa整理为适合机器学习的Parquet格式。
This dataset comes from the International Organization for Migration (IOM)s displacement tracking matrix (DTM) publicly accessible API, providing non-sensitive IDP figures aggregated at the country, Admin 1 (states, provinces, or equivalent), and Admin 2 (smaller subnational administrative areas) levels for Zambia. The dataset contains 140 rows, split into 112 training rows and 28 test rows, with 23 variables (8 numeric, 14 categorical, 1 datetime). It covers geographic, demographic, and temporal dimensions, primarily for tabular classification tasks in the conflict and security domain. The dataset is curated into ML-ready Parquet format by Electric Sheep Africa.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自国际移民组织(IOM)的流离失所追踪矩阵(DTM)公开API,聚焦于赞比亚境内非敏感性的境内流离失所者(IDP)数据。原始数据通过人道主义数据交换平台(HDX)的CKAN接口下载,随后由Electric Sheep Africa团队进行系统化清洗与重构。具体处理流程包括:统一列名至小写蛇形命名法,将常见缺失值标识(如N/A、null等)归一化为NaN,并依据解析成功率(>85%阈值)将1列字符串转换为数值或时间格式。最终数据以Snappy压缩的Parquet格式存储,并按80/20比例随机拆分为训练集(112条)与测试集(28条),确保了数据的机器学习就绪性。
使用方法
该数据集可通过HuggingFace的datasets库便捷调用,用户仅需执行load_dataset('electricsheepafrica/africa-displacement-zambia')即可加载数据,并利用to_pandas()方法将训练集与测试集转换为DataFrame进行探索。使用前需注意潜在局限性,如admin2name和admin2pcode列缺失率超过20%,应在建模中谨慎处理。对于深入分析,建议参考IOM的原始方法论说明,并结合DTM API提供的更细颗粒度数据进行交叉验证。数据集中displacementreason和numpresentidpind等变量可作为下游迁移预测或人道主义响应模型的关键特征。
背景与挑战
背景概述
在非洲人道主义危机频发的背景下,国际移民组织(IOM)通过其流离失所追踪矩阵(DTM)收集并公开了赞比亚境内流离失所人口(IDP)的行政层面数据。该数据集由Electric Sheep Africa于2026年整理至HuggingFace,旨在为机器学习社区提供结构化的次国家级人道主义数据。核心研究问题聚焦于利用多源行政记录,监测自然灾害与冲突导致的非自愿迁移模式。数据集仅包含非敏感IDP数量,并按国家和省级行政区汇总,为学术界与NGO提供了定量分析被迫迁徙动态的基础资源,对非洲人道主义数据赋能领域具有里程碑意义。
当前挑战
该数据集面临的首要挑战源于数据原始采集的局限性——IOM的指标未经独立验证,可能存在报告偏差与定义不一致,影响模型泛化能力。次级行政单位名称(admin2name、admin2pcode)缺失率超过20%,削弱了空间粒度分析的可靠性。此外,数据集仅覆盖2024年12月的单轮评估,时间跨度单一,无法捕捉流离失所状态的季节性演变。构建过程中需清洗多种缺失值标记并标准化列名,但自动化流程无法矫正采集阶段的抽样偏倚,最终样本总量仅140行,对复杂迁移模式的学习构成严峻考验。
常用场景
经典使用场景
在非洲人道主义响应与强迫迁移研究领域,赞比亚流离失所追踪矩阵数据集为学者提供了精细化的亚国家级观测单元数据,涵盖南部、西北和西部三个省份的行政区域。该数据集最经典的使用场景是构建预测模型,用于估算境内流离失所者(IDP)的数量分布,并分析性别构成、迁移原因(如自然灾害、冲突)与空间地理特征之间的关联。研究人员可依据`numpresentidpind`、`numbermales`、`numberfemales`等核心指标,结合`admin1name`、`displacementreason`等分类变量,开展基于表格数据的回归分析或分类任务,从而揭示赞比亚境内人口流动的时空动态规律。
解决学术问题
该数据集精准回应了灾害与冲突背景下流离失所人口统计的量化研究难题。长期以来,第三方机构在获取赞比亚境内流离失所者准确分布信息时面临数据碎片化与空间粒度不足的挑战。此数据集通过整合国际移民组织官方API的非敏感IDP数据,首次以机器学习就绪格式呈现亚国家级行政单位的观测值,有效支撑了关于人口迁移驱动因素(如干旱响应与地区冲突)的因果推断研究。其意义在于为定量分析提供了一致、可复现的数据基础,推动了人道主义科学从描述性统计向预测性建模的范式转变,尤其在资源匮乏地区的人口流动预警研究中具有重要的方法论价值。
实际应用
在实际应用层面,该数据集为人道主义救援决策提供了数据驱动的行动指南。救援组织可通过分析`displacementreason`字段中记载的迁移原因(如自然灾害或冲突),精准定位赞比亚南部省份因干旱响应而流离失所的脆弱人群。结合`admin2name`的乡镇级空间信息与`numpresentidpind`的人口总数,援助机构能优化物资分配方案,例如将食品与医疗资源优先投送至塞南戈(Sinazongwe)等IDP聚集的高密度区域。此外,`reportingdate`与`roundnumber`的时间序列特征使动态监测流离失所事件成为可能,助力政府与非政府组织构建实时预警体系,提升应对突发人口流动的响应效率。
数据集最近研究
最新研究方向
面对非洲南部日益严峻的气候变化与资源竞合挑战,赞比亚境内流离失所者的动态追踪成为人道主义研究的前沿议题。该数据集基于国际移民组织的位移追踪矩阵(DTM)API,系统收录了2024年12月赞比亚南部、西北及西部省份因自然灾害、冲突等多重原因导致的国内流离失所者(IDP)分布信息,涵盖从国家到行政二级的空间粒度和详细的人口统计特征。其结构化的表格形式与精心划分的训练/测试集,为应用机器学习模型预测IDP规模、识别脆弱区域以及优化人道主义资源部署提供了高质量的基准数据。通过与“南部非洲干旱应对”等热点事件的关联,该数据集不仅推动了冲突与安全领域的数据驱动决策,更彰显了开源数据在应对非洲大陆人道主义危机、促进灾后恢复与可持续发展中的关键支撑作用。
以上内容由遇见数据集搜集并总结生成



