electricsheepafrica/africa-displacement-sudan
收藏Hugging Face2026-04-28 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-displacement-sudan
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来自国际移民组织(IOM)的位移跟踪矩阵(DTM)公开API。该API允许人道主义社区、学术界、媒体、政府和非政府组织利用DTM收集的数据。DTM API仅提供非敏感的IDP数据,按国家、Admin 1(州、省或等效行政区)和Admin 2(较小的次国家行政区)级别汇总。数据集中的每一行代表次国家行政单位的观察结果。时间覆盖范围由`reportingdate`列指示。地理范围:苏丹(SDN)。数据集由Electric Sheep Africa整理为适合机器学习的Parquet格式。
This dataset comes from the International Organization for Migration (IOM)s displacement tracking matrix (DTM) publicly accessible API. This API allows the humanitarian community, academia, media, government, and non-governmental organizations to utilize the data collected by DTM. The DTM API only provides non-sensitive IDP figures, aggregated at the country, Admin 1 (states, provinces, or equivalent), and Admin 2 (smaller subnational administrative areas) levels. Each row in this dataset represents subnational administrative unit observations. Temporal coverage is indicated by the `reportingdate` column(s). Geographic scope: Sudan (SDN). The dataset was curated into ML-ready Parquet format by Electric Sheep Africa.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自国际移民组织(IOM)发布的“紧急事件追踪(EET)”系统,旨在捕捉苏丹境内因冲突引发的突发性人口流动与流离失所情况。原始数据通过HDX平台的CKAN API获取,随后由Electric Sheep Africa团队进行系统化清洗与转换:统一列名至小写下划线格式,将各类缺失值标记(如N/A、null、-)标准化为NaN,剔除缺失率超过80%的16个字段,移除6条完全重复的记录,并以高于85%的可解析率为标准将1列字符串字段强制转换为数值或时间类型。最终数据集按80/20比例随机拆分为训练集与测试集(固定种子42),并以Snappy压缩的Parquet格式存储,便于机器学习场景下的高效加载与调用。
特点
数据集包含6920条观测记录,每条代表一级行政单元的监测快照,地理范围限定于苏丹西达尔富尔地区的Ag Geneina、Kereneik和Beida三个区域。数据涵盖45个字段,包括地理编码(如reg_state、reg_locality)、时间戳(date_incident)、更新轮次(update_number)、人口统计指标(如境内流离失所者户数与个体数、按性别与年龄层细分的名册数据)、受影响群体的特殊需求(患病、残疾、孕妇、哺乳期妇女、未成年户主等)以及需求优先级(如水卫、食物、紧急住所)。数值字段分布跨度极大(如idps_hh从0至8000),揭示了人道危机在空间与时间上的高度异质性。
使用方法
用户可通过HuggingFace Datasets库一键加载该数据集,执行`load_dataset("electricsheepafrica/africa-displacement-sudan")`后即可获得已预拆分的训练集与测试集(分别为5536条与1384条)。由于数据以Pandas兼容的Parquet格式存储,用户可直接调用`.to_pandas()`方法转换为DataFrame进行探索性分析。该数据集适用于制表分类任务或人道主义响应相关研究,例如预测某地的流离失所规模、识别关键需求模式或评估不同行政单元的人道脆弱性等级。建议引用原始HDX页面与IOM的方法论说明以进行验证与交叉引用。
背景与挑战
背景概述
在人道主义危机频发的萨赫勒地区,苏丹西部达尔富尔州因族群冲突与资源争夺导致大规模人口流离失所,精准追踪境内流离失所者(IDPs)的时空分布成为人道救援的关键难题。由国际移民组织(IOM)于2021年启动的紧急事件跟踪系统(EET),依托其流离失所追踪矩阵(DTM),通过行政单元层级的观测数据,系统记录了杰奈纳地区自冲突爆发以来25轮追踪中的难民家庭规模、人口结构、健康脆弱性及紧急需求。该数据集由Electric Sheep Africa于2025年5月整理为机器学习就绪的Parquet格式,覆盖6920条观测与45个变量,为预测性人口迁移建模与资源分配优化提供了首个结构化基准。其核心研究问题是:如何将间断性的人工巡查数据转化为可训练的时间序列特征,以支持苏丹境内IDPs的实时态势感知与干预优先级排序。
当前挑战
该数据集所解决的领域挑战源于人道主义数据固有的碎片化与高噪声:原始采集依赖前线人员的定期巡查,受安全局势与通讯中断影响,存在16个变量缺失率超80%的极端稀疏问题,且离散时空观测难以直接用于机器学习训练。构建过程中面临三重技术壁垒:其一,需统一来自CKAN API的原始数据中“N/A”“unknown”等12种语义缺失标记为NaN,避免模型误读;其二,-2.0至6500.0的位移计算值(displaced_calc)异常范围暗示口径不一致或输入错误,自动化清洗无法修正此类定义性偏差;其三,时间序列中更新间隔不固定(1-25轮),且同一行政单元在不同轮次间的追踪粒度变化(如从州级细化至地点级)增加了特征对齐难度,迫使后续建模必须解决非规则采样与层级异构性问题。
常用场景
经典使用场景
在非洲人道主义数据分析与冲突人口迁移研究领域,该数据集通常被用于构建预测模型,以分析苏丹西达尔富尔地区因冲突导致的境内流离失所者(IDPs)的时空分布规律。基于国际移民组织(IOM)的紧急事件追踪(EET)系统,数据集中包含了详细的行政单位观测值,如家庭户数、个体人数、性别与年龄分层统计,以及水源、食物、紧急住所等关键需求指标。经典的研究路径是从时间序列维度出发,结合地理位置特征和事件标签,训练分类或回归模型来估计流离失所规模与人口脆弱性等级。这种多模态的表格数据资源使得研究者能够深入理解冲突背景下人口迁移的动态机制,为人道主义响应的优先排序提供数据驱动的决策依据。
实际应用
在实际应用层面,该数据集直接服务于国际人道主义救援机构的后勤调度与资源分配决策。人道主义协调厅(OCHA)、世界粮食计划署(WFP)及非政府组织可利用其中关于流离失所者集中场所(如学校、公共建筑)的容纳量与需求优先级信息,动态规划食品、医疗包、临时住所的配送路线。例如,数据集中记录的'need_1'、'need_2'和'need_3'字段明确标示了各地点对WASH(水、卫生、健康)、食品和应急庇护所的需求程度,使得救援人员能快速识别阿杰奈纳地区最迫切的干预点。此外,该数据集还通过机器学习流水线转换为高效率的Parquet格式,支持移动端离线部署,极大增强了在通信中断场景下的人道主义响应速度与精准度。
衍生相关工作
围绕该数据集已衍生出一系列推动计算社会学与灾害管理范式创新的研究作品。基于非洲流离失所数据的迁移趋势预测工作,催生了融合地理空间编码与循环神经网络的时空级联模型,这类模型能够根据历史更新编号和事件标签预测下一个监测周期的人口变动阈值。另一经典方向是采用多标签分类算法,从 'affected_idps_disease'、'affected_idps_pregnant'等健康指标中识别出具有并发多维度脆弱性的聚集点,从而构建复合型人道主义风险指数。此外,Electric Sheep Africa团队将该数据集作为模板,标准了非洲大陆其他冲突地区(如索马里、南苏丹)的流离失所数据清洗与转换流程,形成了一套可复用的ML-ready数据管线协议。这些工作共同将人道主义数据集从静态统计档案提升为动态预测引擎,深化了对复杂危机系统中人口流动规律的科学理解。
以上内容由遇见数据集搜集并总结生成



