five

africa-displacement-south-sudan

收藏
Hugging Face2026-04-29 更新2026-04-30 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-displacement-south-sudan
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为“南苏丹流离失所数据 - [国内流离失所者] - 基线 - 2014年2月至2017年12月 - [IOM DTM]”,由国际移民组织(IOM)发布,并通过HDX平台提供。数据集记录了2014年至2017年间南苏丹国内流离失所者的基线评估数据,每条数据代表一个次国家级行政单位的观察结果。数据集包含2,114行数据,分为1,691行的训练集和422行的测试集。数据涵盖14个字段,包括3个数值型、10个类别型和1个日期时间型字段。地理字段包括国家、国家代码、一级行政区(如Unity、Upper Nile、Jonglei)及其代码,以及二级和三级行政区信息。时间字段为`date_reported`。人口统计字段包括流离失所家庭数量(`idps_families`)和个体数量(`idps_individuals`)。数据集还包含其他元数据字段,如数据来源(`esa_source`)和处理日期(`esa_processed`)。该数据集适用于研究强迫流离失所和迁移问题,尤其适用于南苏丹地区的相关分析。数据经过清洗和标准化处理,转换为Parquet格式,并移除了重复行。但需注意,部分字段(如`admin3`和`idps_families`)缺失值较多,使用时需谨慎。
创建时间:
2026-04-25
原始信息汇总

数据集概述

基本信息

  • 数据集名称: South Sudan Displacement Data - [IDPs] - Baseline - Feb2014 to Dec2017 - [IOM DTM]
  • 发布者: 国际移民组织 (IOM)
  • 数据来源: HDX
  • 许可证: hdx-other
  • 更新日期: 2025-04-10
  • 语言: 英语
  • 地理范围: 南苏丹 (SSD)
  • 领域: 被迫流离失所与迁移
  • 观测单位: 国家以下行政单位观测数据

数据集规模

  • 总行数: 2,114 行
  • 列数: 14 列(3 个数值型,10 个分类型,1 个日期时间型)
  • 训练集: 1,691 行
  • 测试集: 422 行

变量说明

  • 地理变量: country(南苏丹)、country_code(SSD)、admin1(Unity、Upper Nile、Jonglei)、admin1_code(SS06、SS07、SS03)、admin2(Wau、Melut、Pariang)等
  • 时间变量: date_reported
  • 人口变量: idps_individuals(范围 0.0–140101.0)
  • 标识符/元数据: idps_families(范围 1.0–37213.0)、esa_source(HDX)、esa_processed(2026-04-29)
  • 其他变量: round_no(范围 1.0–43.0)

数值摘要

列名 最小值 最大值 均值 中位数
idps_families 1.0 37213.0 1617.3091 318.0
idps_individuals 0.0 140101.0 7970.1118 1802.0
round_no 1.0 43.0 18.9863 16.0

缺失值情况

  • admin3: 缺失率 35.2%
  • idps_families: 缺失率 39.5%
  • idps_individuals: 缺失率 1.0%
  • 其余列无明显缺失

数据处理说明

  • 原始数据通过 CKAN API 从 HDX 下载并转换为 Parquet 格式
  • 列名统一为小写 snake_case 格式
  • 常见缺失值标记统一为 NaN
  • 移除 280 行精确重复数据
  • 使用固定随机种子 (42) 按 80/20 比例划分为训练集和测试集
  • 保存为 Snappy 压缩 Parquet 格式

局限性

  • 数据来自 IOM,未经 Electric Sheep Africa 独立验证
  • 自动清洗无法纠正原数据中的误报、定义不一致或采样偏差
  • admin3idps_families 列缺失率超过 20%,在建模中需谨慎处理
  • 建议查阅 HDX 原始数据集页面获取更多方法说明和注意事项

引用格式

bibtex @dataset{hdx_africa_displacement_south_sudan, title = {South Sudan Displacement Data - [IDPs] - Baseline - Feb2014 to Dec2017 - [IOM DTM]}, author = {International Organization for Migration (IOM)}, year = {2025}, url = {https://data.humdata.org/dataset/south-sudan-displacement-data-idps-baseline-feb2014-to-dec2017-iom-dtm}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }

搜集汇总
数据集介绍
构建方式
在南苏丹长期人道主义危机的背景下,该数据集依托国际移民组织(IOM)的流离失所追踪矩阵(DTM)系统,收集了2014年2月至2017年12月间该国境内流离失所者的基线评估数据。原始数据通过HDX平台基于CKAN API获取,经Electric Sheep Africa团队清洗与重构,统一将缺失值标记规范化为NaN,移除280行精确重复记录,并将所有列名转换为小写snake_case格式,最终分割为80/20的训练集与测试集,以Snappy压缩的Parquet格式存储,确保机器学习场景下的高效加载与调用。
特点
该数据集以次国家级行政区划为观测单元,涵盖南苏丹关键州的县级行政信息,总计包含14个字段,包括3个数值型、10个类别型和1个时间型变量。核心统计指标呈现显著的地理差异与时间动态:境内流离失所者个体数量从0至14万余人不等,家族数均值约1,617,同时包含完整的评估轮次编号(1至43轮)。值得注意的是,admin3与idps_families两列缺失率超过20%,提示用户在使用时需审慎处理,数据原始的采集缺陷与定义歧义也构成潜在的局限性。
使用方法
用户可通过Hugging Face的datasets库快速加载该数据集,调用`load_dataset`函数即可获得已分割好的训练集与测试集,并支持直接转换为Pandas DataFrame进行后续分析与建模。数据设计适用于社会科学领域中关于强迫迁移与人口流动的定量研究,也可服务于人道主义救援评估、机器学习回归预测(如预测流离失所人数)及时空聚类分析等任务。建议引用原始IOM数据集与Electric Sheep Africa的重构版本以保障学术透明度。
背景与挑战
背景概述
该数据集由国际移民组织(IOM)于2014年至2017年间通过其流离失所追踪矩阵(DTM)项目在南苏丹收集,后经Electric Sheep Africa整理并发布在HuggingFace平台。核心研究问题聚焦于南苏丹境内因冲突导致的内部流离失所者(IDPs)的时空分布与规模,旨在为非洲人道主义救援与迁移研究提供可复用的结构化数据资源。作为人类迁移与强迫流离领域的重要基础数据集,它填补了冲突地区人口动态量化分析的空白,尤其在资源匮乏的非洲地区,为政策制定者和研究人员提供了从基层行政单元到国家层面的实证依据。该数据集对理解南苏丹长期内战背景下的人口流动模式、人道主义危机演变及迁移预测模型构建具有显著影响力,是连接原始调查数据与机器学习应用的桥梁。
当前挑战
该数据集所应对的领域挑战在于,冲突驱动的内部流离失所现象具有高度动态性和不规律性,传统调查方法难以实时捕获精确的人口迁移轨迹,而机器学习模型需要结构化、标准化的长时序数据以揭示潜在模式。在构建过程中,主要挑战包括:原始数据来源独立且未经ESA独立验证,存在报告偏差和定义不一致的风险;数据清洗需处理大量缺失值,其中行政三级的缺失率达35.2%,idps_families列缺失率高达39.5%,可能限制细粒度空间分析的效能;自动化清理无法修正原始采集中的抽样偏差或误报,数据质量高度依赖IOM的原始方法论;此外,地理范围和时间跨度有限(仅覆盖南苏丹2014-2017年),模型的泛化性受限于特区域性和历史情境。
常用场景
经典使用场景
非洲南苏丹境内流离失所者(IDP)基线评估数据集记录了2014年2月至2017年12月期间该国因冲突导致的平民迁移轨迹,是国际移民组织(IOM)通过迁移追踪矩阵(DTM)系统采集的次国家级行政单元观测数据。该数据集以结构化时序队列记录各行政区的流离失所人口总数与家庭户数,辅以地理编码与报告轮次信息,为分析南苏丹境内人口流动的时空格局、灾民分布密度与阶段性迁移特征提供了标准化的实证基础。研究者通常利用该数据集构建时空预测模型,以识别高危迁移走廊与人口聚集热点,或评估冲突烈度与人口波动之间的动态关联。
衍生相关工作
该数据集推动了冲突驱动人口迁移预测与人道主义资源分配优化等研究方向的深化。基于该数据集的清洗与特征化版本,学者已将其与卫星遥感影像(如夜间灯光强度与植被指数)及冲突事件数据库(如ACLED)进行关联分析,构建了多模态融合的流离失所人口预测模型,显著提升灾民分布估算的时空分辨率。另有研究以此为基准数据集,开发了针对资源匮乏区域的序列到序列时空转录网络,实现对下一轮次迁移流与聚集量的端到端预测,并衍生出基于强化学习的救援物资调度框架,为人道主义响应领域的智能化转型提供了可复用的算法基础与评估基准。
数据集最近研究
最新研究方向
该数据集聚焦于南苏丹境内流离失所者(IDPs)的时空动态与驱动因素分析,为非洲人道主义危机的前沿研究提供关键数据支撑。近年来,结合南苏丹长期内战与气候冲击叠加的复杂局势,研究者利用此2014至2017年基线数据,探讨冲突模式与人口迁移的耦合机制,并尝试通过机器学习模型预测流离失所热点区域。数据集经规范化处理后,已成为验证迁移预测算法、评估人道主义干预效果的重要基准,其精细的行政单元观测和时间序列结构,尤其适合应用于脆弱性评估与资源分配优化等场景,对推动数据驱动的非洲难民治理具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作