electricsheepafrica/africa-displacement-djibouti
收藏Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-displacement-djibouti
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来自国际移民组织(IOM)的位移跟踪矩阵(DTM)公开API,包含吉布提国内不同行政级别的非敏感内部流离失所者(IDP)数据。数据集经过整理,转换为适合机器学习的Parquet格式,包含20行21列,分为16行的训练集和4行的测试集。数据涵盖地理、时间、结果测量等多个变量,并提供了详细的数据清洗和处理过程。
This dataset comes from the International Organization for Migration (IOM)s displacement tracking matrix (DTM) publicly accessible API, containing non-sensitive IDP figures aggregated at different subnational administrative levels in Djibouti. The dataset has been curated into ML-ready Parquet format, consisting of 20 rows and 21 columns, split into 16 rows for training and 4 rows for testing. It includes variables such as geographic, temporal, and outcome measurements, along with detailed data cleaning and processing steps.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自国际移民组织(IOM)的流离失所追踪矩阵(DTM)公开API,由Electric Sheep Africa团队精心构建。原始数据通过CKAN API从人道主义数据交换平台(HDX)下载,随后转换为Parquet格式以提升机器学习兼容性。数据清洗过程中,列名被统一为小写并标准化为snake_case,常见缺失值标记被统一替换为NaN。对于缺失率超过80%的列(如numbermales和numberfemales)予以剔除,部分列基于解析成功率(>85%)从字符串转换为数值或日期类型。最终数据以固定随机种子(42)按80/20比例划分为训练集与测试集,并存储为Snappy压缩的Parquet文件。
特点
该数据集聚焦于吉布提国内流离失所者(IDP)的次国家级行政单元观测,涵盖21个变量,包括6个数值型、14个分类型和1个日期时间型。地理范围覆盖吉布提的三个一级行政区(Tadjoura、Dikhil、Ali Sabieh),时间跨度为2022年9月。核心变量numpresentidpind记录了当前流离失所者数量,范围从112至6086人。数据集包含丰富的行政地理编码(admin0至admin2级别)及操作元数据(如operation字段标记为干旱影响)。部分列(如admin2name)缺失率超过20%,需在建模时审慎处理。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集,使用`load_dataset`函数即可获取训练集与测试集,并支持转换为pandas DataFrame进行后续分析。数据集以Parquet格式存储,适合高效的列式操作与大规模处理。建议使用前检查admin2name和admin2pcode等高缺失率列的完整性,并根据业务需求进行插补或筛选。该数据适用于分类任务、人道主义响应建模以及冲突与安全领域的探索性分析,亦可作为迁移学习或时间序列预测的基准数据。
背景与挑战
背景概述
在非洲之角地区,因干旱、冲突等引发的被迫流离失所问题日益严峻,精准的人道主义数据成为决策的关键支撑。国际移民组织(IOM)通过其流离失所追踪矩阵(DTM)API,于2026年发布了覆盖吉布提的亚国家级行政单元观测数据集,由Electric Sheep Africa团队整理为机器学习就绪格式。该数据集聚焦于境内流离失所者(IDP)的分布与数量,旨在为人道主义社区、学术界及政府提供非敏感汇总数据,以支持灾害响应与资源调配。尽管样本量仅20行,但其填补了吉布提地区精细化流离失所数据的空白,成为该领域少数可公开获取的结构化数据源之一。
当前挑战
该数据集面临的核心挑战首先体现在领域问题的复杂性上:流离失所现象受自然灾难(如干旱)与冲突双重驱动,数据收集需跨越行政边界与不稳定区域,导致观测单元稀疏且时空覆盖不均。构建过程中,数据源于DTM API的汇总统计,原始变量中存在高比例缺失值(如admin2级别字段缺失率达30%),且由于未独立验证,可能隐含报告偏差或定义不一致。此外,数据集仅包含2022年9月单一轮次的观测,时间颗粒度不足,难以支持趋势分析与预测建模,而样本总量极低(20行)更限制了机器学习方法的泛化能力与统计推断的可靠性。
常用场景
经典使用场景
在非洲之角地区的人道主义研究中,吉布提流离失所追踪矩阵数据集为分析干旱等自然灾害所引发的境内流离失所动态提供了宝贵的数据基础。研究人员通常将其用于构建亚国家行政单元层面的流离失所人数预测模型,通过整合地理、时间和人口特征变量,揭示不同地区受冲击程度的差异。该数据集还常被作为基准测试集,评估机器学习算法在小样本、高维度表格数据上的表现,尤其是在人道主义数据稀缺的环境下检验模型泛化能力。
衍生相关工作
该数据集衍生出了多项创新性研究工作,包括基于时空图神经网络的流离失所人数动态预测模型,以及融合遥感植被指数与人口流动数据的多模态分析框架。研究者还以其为蓝本,建立了覆盖整个非洲之角的标准化的IDP数据仓库,推动跨国家比较研究。此外,针对小样本学习挑战,有工作引入了迁移学习技术,利用该数据集训练的模型预训练权重,提升其他数据稀缺地区预测的准确率,形成了可复用的方法论模板。
数据集最近研究
最新研究方向
在非洲之角地区,气候变化引发的干旱危机正日益成为人口流离失所的核心驱动力,吉布提作为受干旱影响严重的国家,其境内流离失所者的动态监测成为人道主义研究的前沿热点。该数据集基于国际移民组织(IOM)的流离失所追踪矩阵(DTM)API,通过吉布提国家及以下行政单元的观测数据,精准捕捉了2022年9月因干旱冲击导致的境内流离失所者(IDP)分布情况,样本量虽小但时空粒度精细。当前研究前沿聚焦于将此类高频、细粒度的人道主义数据与机器学习模型相结合,以提升对突发性流离失所事件的预测能力与响应效率,尤其在数据稀缺的非洲地区,该数据集为验证低资源情境下迁移学习与数据增强算法的有效性提供了关键基准,推动了人工智能在人道主义干预决策中的实际应用,对实现联合国可持续发展目标中关于减少灾害损失与保障弱势群体福祉的愿景具有深远意义。
以上内容由遇见数据集搜集并总结生成



