electricsheepafrica/africa-displacement-south-sudan
收藏Hugging Face2026-04-29 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-displacement-south-sudan
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来自国际移民组织(IOM)的位移跟踪矩阵(DTM)公开API,允许人道主义社区、学术界、媒体、政府和非政府组织使用DTM收集的数据。DTM API仅提供非敏感的国内流离失所者(IDP)数据,这些数据在国家、行政1级(州、省或等效区域)和行政2级(较小的次国家行政区域)级别上进行了汇总。数据集中的每一行代表次国家行政单位的观察结果,时间覆盖范围由`reportingdate`列指示。地理范围:南苏丹(SSD)。数据集由Electric Sheep Africa整理为适合机器学习的Parquet格式。
This dataset comes from the International Organization for Migration (IOM)s displacement tracking matrix (DTM) publicly accessible API. This API allows the humanitarian community, academia, media, government, and non-governmental organizations to utilize the data collected by DTM. The DTM API only provides non-sensitive IDP figures, aggregated at the country, Admin 1 (states, provinces, or equivalent), and Admin 2 (smaller subnational administrative areas) levels. Each row in this dataset represents subnational administrative unit observations. Temporal coverage is indicated by the `reportingdate` column(s). Geographic scope: South Sudan (SSD). The dataset is curated into ML-ready Parquet format by Electric Sheep Africa.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集以南苏丹境内流离失所者为观测对象,原始数据源自国际移民组织(IOM)开展的DTM基线评估活动,时间跨度为2014年2月至2017年12月。数据经由HDX平台通过CKAN API获取后,由Electric Sheep Africa团队进行系统性清洗与格式化处理:包括统一列名为蛇形命名法、标准化缺失值标记、剔除280条精确重复记录,并采用固定随机种子(42)以80/20比例划分训练集与测试集,最终以Snappy压缩的Parquet格式存储,形成机器学习友好型数据集。
使用方法
数据集可通过HuggingFace Datasets库便捷加载,仅需一行命令`load_dataset("electricsheepafrica/africa-displacement-south-sudan")`即可获取训练与测试两子集,并支持直接转换为Pandas DataFrame进行后续分析。数据集适用于流离失所人口时空分布建模、人道主义资源分配预测及冲突影响评估等任务。使用者应留意原始数据由IOM发布而未独立验证,且缺失值较多的字段需针对性填补或排除,建议参考HDX原页面了解调研方法论以规避潜在偏差。
背景与挑战
背景概述
该数据集由国际移民组织(IOM)于2014年至2017年间在南苏丹开展的基础评估中收集,后经Electric Sheep Africa于2025年重新整理并发布在HuggingFace平台。南苏丹自2013年内战爆发以来,境内流离失所者(IDPs)规模急剧膨胀,人道主义数据的高效获取与分析成为关键挑战。该数据集聚焦于次国家级行政单元的流离失所情况,包含2114条观测记录,涵盖地理、时间及人口统计变量,为机器学习在强制迁移与难民研究领域的应用提供了标准化、可复用的基础数据资源,填补了非洲人道主义数据在ML生态中的空白。
当前挑战
该数据集所解决的领域问题在于,传统人道主义数据常以分散的表格或报告形式存在,难以直接用于建模与预测,而该数据集通过清洗、去重与拆分训练/测试集,降低了迁移模式分析的门槛。构建过程中面临的挑战包括:原始数据源自IOM的不同评估轮次(共43轮),存在定义不一致与观测单元层级变化;约35%的行政区划三级单元(admin3)数据缺失,且家庭IDP数量缺失率达39.5%,需谨慎处理;此外,自动清洗无法修正原始采集中的报告偏差与抽样偏见,数据集发布者明确建议用户参考原始HDX页面的方法论说明,以规避误导性结论的风险。
常用场景
经典使用场景
南苏丹境内流离失所人口(IDP)基线评估数据集记录了2014年至2017年间该国次国家级行政单元的流离失所动态。在冲突与人道主义危机频发的非洲之角地区,该数据集常被用于训练和评估人口迁移预测模型,特别是基于时间序列的时空建模任务。研究者可利用其丰富的行政区域分层(admin1至admin3)与逐轮次调查周期(round_no),构建精细化的流离失所人口流动图谱,从而揭示武装冲突与大规模人口迁徙之间的内在关联。
解决学术问题
该数据集有效回应了冲突驱动型人口迁移研究中的两大核心难题:一是缺乏高时空分辨率、结构化的公开迁移数据,二是难以量化行政层级间的流离失所分布模式。通过提供统一编码的州、县、帕亚姆三级行政单位观测值,并附带家庭数与个体数的双重统计指标,该数据使学者得以开展稳健的群体迁移动态分析,填补了非洲大湖地区人道主义数据鸿沟。
实际应用
在实际人道主义响应场景中,该数据集可用于优化紧急救援资源的空间分配方案。非政府组织与国际机构可基于历史流离失所热点区域(如团结州、上尼罗州),提前预判下一轮冲突中可能涌现的安置需求,从而将帐篷、食品和医疗物资预置至关键过境点。此外,该数据已被集成至机器学习预处理管道,便于下游开发实时人口流动预警系统。
数据集最近研究
最新研究方向
该数据集聚焦于南苏丹境内流离失所者(IDPs)的时空分布与驱动因素分析,结合冲突背景下的强制迁移前沿研究。近期研究热点在于利用2014年至2017年间的基层行政单位观测数据,探索流离失所的动态模式与冲突事件的关联性,尤其关注Unity、Upper Nile和Jonglei等高冲突地区的IDP数量变化。该数据集的标准化处理(如缺失值统一、去重、分片)为机器学习模型在预测迁移趋势、资源分配和人道主义响应优化方面提供了可靠基础。随着国际移民组织(IOM)的持续更新,该数据对于理解非洲之角地区的人道危机、评估干预措施效果以及推动基于证据的政策制定具有重要影响,成为灾难与迁移研究领域的核心资源。
以上内容由遇见数据集搜集并总结生成



