electricsheepafrica/africa-displacement-all
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-displacement-all
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来自国际移民组织(IOM)的位移跟踪矩阵(DTM)公开API,该API允许人道主义社区、学术界、媒体、政府和非政府组织利用DTM收集的数据。DTM API仅提供非敏感的国内流离失所者(IDP)数据,按国家、行政1级(州、省或等效)和行政2级(较小的次国家行政区域)进行汇总。数据集中的每一行代表次国家行政单位的观察结果,时间覆盖范围由reportingdate列指示。地理范围包括阿富汗、安提瓜和巴布达、亚美尼亚、巴哈马、玻利维亚等51个国家。数据集由Electric Sheep Africa整理为适合机器学习的Parquet格式,包含地理、时间、人口统计和结果变量,并分为训练集和测试集。
This dataset comes from the International Organization for Migration (IOM)s displacement tracking matrix (DTM) publicly accessible API. This API allows the humanitarian community, academia, media, government, and non-governmental organizations to utilize the data collected by DTM. The DTM API only provides non-sensitive IDP figures, aggregated at the country, Admin 1 (states, provinces, or equivalent), and Admin 2 (smaller subnational administrative areas) levels. Each row in this dataset represents subnational administrative unit observations. Temporal coverage is indicated by the reportingdate column(s). Geographic scope includes AFG, ATG, ARM, BHS, BOL, BFA, BDI, CMR, and 43 others. The dataset is curated into ML-ready Parquet format by Electric Sheep Africa and includes geographic, temporal, demographic, and outcome variables. It is split into train and test sets.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自国际移民组织(IOM)基于流离失所追踪矩阵(DTM)公开API所采集的全球境内流离失所者(IDP)数据,原始数据经人道数据交换平台(HDX)以CKAN接口下载后,由Electric Sheep Africa团队进行机器学习的标准化处理。构建过程中,原始数据被转化为Parquet格式,列名统一为小写蛇形命名法,缺失值标记(如N/A、null等)被整合为NaN,并根据解析成功率超过85%的阈值将部分字符串列转换为数值或日期时间类型。最终,数据集以固定随机种子42按80/20比例随机分割为训练集(183,921行)和测试集(45,980行),并压缩为Snappy格式的Parquet文件。
特点
该数据集聚焦非洲及全球51个国家的人道主义危机场景,以次级行政单位(如州、省及以下区域)为观测单元,涵盖2010至2026年的长时间跨度的流离失所动态。数据包含23个字段,涉及地理编码(admin0至admin2级别)、时间戳、人口统计(男女人数)及测量指标(如当前IDP人数、评估轮次),其中核心变量numpresentidpind反映了从1至802.9万不等的流离失所规模。数据集特色在于整合了多国冲突(如苏丹、乌克兰)、自然灾害等流离失所原因,并提供了行政级别的层次结构,便于进行多尺度分析,但部分字段缺失率超过20%(如admin2名称和性别数据),需谨慎处理。
使用方法
用户可通过Hugging Face的datasets库直接加载该数据集,调用load_dataset('electricsheepafrica/africa-displacement-all')即可获取训练和测试分割,并轻松转换为Pandas DataFrame进行探索性分析。数据适用于表格分类任务或其他预测建模,例如基于行政区域和时间特征预测IDP人数或流离失所原因。使用时需注意地理与时间字段的清洗,特别是对缺失率高的列进行插补或剔除,并参考原始HDX数据集页面的方法论说明以理解跨国家比较的局限性。数据集以Snappy压缩的Parquet格式存储,支持高效的存储与读取,适合大规模人道主义数据分析与机器学习流水线集成。
背景与挑战
背景概述
该数据集由国际移民组织(IOM)于2026年创建,通过其公开的流离失所追踪矩阵(DTM)API汇聚而成,并由Electric Sheep Africa整理为机器学习就绪格式。核心围绕非洲及全球51个国家的冲突与暴力导致的人口非自愿迁移问题,聚焦于境内流离失所者(IDP)的时空分布与人口统计特征。作为人道主义数据分析领域的重要资源,它为研究冲突动态、人口流动模式及人道主义响应提供了标准化、细粒度的纵向观测数据,显著推动了计算社会科学与灾害管理研究的发展。
当前挑战
该数据集所解决的领域问题在于,人道主义数据长期面临多源异构、时空粒度不统一及获取门槛高的挑战,传统方法难以有效追踪大规模人口迁移的时空演变。构建过程中的挑战尤为突出:首先,原始数据来自IOM在不同国家采用不同方法论的独立评估,跨51国的地理与方法论不一致性威胁着可比性;其次,自动化清洗无法校正原始收集中的误报、定义偏差或抽样偏倚,且`admin2name`、`numbermales`等关键字段缺失率超过20%,给建模带来显著不确定性。
常用场景
经典使用场景
该数据集源自国际移民组织(IOM)的流离失所追踪矩阵(DTM),通过公开API汇聚了51个国家从2010年至2026年间跨行政区域的人口流动与强迫迁移数据。其经典使用场景在于作为时空序列分析与人口流动性建模的基础输入,研究人员可依据‘reportingdate’、‘admin1name’与‘numpresentidpind’等字段,构建多层级面板数据,进而运用统计学习或深度学习范式,追踪内部流离失所者(IDP)在特定地理单元内的分布演化与迁移动态。
衍生相关工作
基于此数据集,研究者已衍生出一系列极具影响力的学术工作。在预测建模方向,有团队利用‘operationstatus’和‘assessmenttype’等特征训练时序神经网络,对短期内的IDP激增事件进行预警。在空间统计学领域,有经典论文借助数据集中的行政编码设计空间自回归模型,揭示流离失所现象在邻接区域间的扩散效应。此外,该数据集还为迁移模式分类、人道主义资源调度优化以及冲突脆弱性评估等下游任务提供了标准化的基准测试集,催生了多个跨学科协作成果。
数据集最近研究
最新研究方向
在全球人道主义危机频发的当下,强制流离失所问题已成为国际社会关注的焦点。africa-displacement-all数据集基于国际移民组织(IOM)的流离失所追踪矩阵(DTM)API所构建,涵盖了51个国家、跨越2010至2026年的次国家级行政单元观测数据,是当前为数不多的、能够系统追踪冲突与自然灾害所致境内流离失所者(IDP)变化的高分辨率数据集。该数据集的前沿研究方向主要集中在利用机器学习方法对人口迁移模式、族群流动轨迹以及人道主义资源分配进行预测与建模。尤其在苏丹冲突、乌克兰危机等热点事件中,该数据集为实时评估流离失所规模的时空演变提供了关键支撑,推动了人道主义行动从被动响应向数据驱动的主动干预转型。其开放获取的架构也促进了跨学科合作,使灾害风险管理和迁移生态学研究进入更具量化和预测性的新阶段。
以上内容由遇见数据集搜集并总结生成



