five

africa-displacement-sudan

收藏
Hugging Face2026-04-28 更新2026-04-29 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-displacement-sudan
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为“苏丹流离失所 - Ag Geneina - 紧急事件追踪 - 国内流离失所者 [IOM DTM]”,由国际移民组织(IOM)发布,旨在追踪苏丹Ag Geneina地区的突发流离失所和人口流动情况。数据集包含6,920条记录,分为训练集(5,536条)和测试集(1,384条),涵盖45个字段,包括地理、时间、人口统计和结果测量等多个维度。地理范围限定为苏丹(SDN),时间覆盖通过`date_incident`字段表示。数据集经过Electric Sheep Africa的整理,转换为Parquet格式,并进行了标准化处理,包括列名统一、缺失值标记统一等。适用于流行病学、疾病监测等任务。数据来源为HDX平台,未经过ESA独立验证,使用时需注意原始数据可能存在报告错误或定义不一致的情况。

This dataset is titled "Sudan Displacement - Ag Geneina - Emergency Tracking - Internally Displaced Persons [IOM DTM]". It is released by the International Organization for Migration (IOM), aiming to track sudden displacement and population mobility in the Ag Geneina region of Sudan. The dataset contains 6,920 records, split into a training set (5,536 records) and a test set (1,384 records), covering 45 fields across multiple dimensions including geography, time, demographics, and outcome metrics. Its geographic scope is limited to Sudan (SDN), and the time coverage is indicated by the `date_incident` field. The dataset was curated, converted to Parquet format, and standardized by Electric Sheep Africa, including unified column naming and consistent missing value labeling. It is applicable to tasks such as epidemiology and disease surveillance. The data source is the HDX platform, and it has not been independently verified by ESA. Users should note that the original data may contain reporting errors or inconsistent definitions.
创建时间:
2026-04-24
原始信息汇总

苏丹流离失所数据集 - 阿杰奈纳 - 紧急事件追踪 - 境内流离失所者(IOM DTM)

数据集概览

  • 名称: Sudan Displacement - Ag Geneina - Emergency Event Tracking - IDPs [IOM DTM]
  • 发布机构: 国际移民组织(IOM)
  • 原始来源: HDX
  • 许可证: hdx-other
  • 最后更新: 2025-05-05
  • 数据整理: 由 Electric Sheep Africa 整理为机器学习就绪的 Parquet 格式

数据集特征

属性 说明
领域 流行病学与疾病监测
观察单元 一级行政单位观测
总行数 6,920
列数 45(29个数值型,15个类别型,1个日期时间型)
训练集 5,536行
测试集 1,384行
地理范围 SDN(苏丹)

变量说明

  • 地理变量: reg_state (SD04)、state_name (West Darfur)、reg_localitylocality_name (Ag Geneina, Kereneik, Beida)、reg_locationlocation_name 等11个
  • 时间变量: date_incidentupdate_number(范围1.0–25.0)
  • 人口统计变量: idps_hh(范围0.0–8000.0)、sudanese_individuals(范围0.0–40000.0)、non_sudanese_individuals(范围0.0–1150.0)、按性别和年龄组划分的登记人数等
  • 结果/测量变量: affected_idps_disease(范围-12.0–20.0)、affected_idps_disabledaffected_idps_pregnantaffected_idps_lactingaffected_idps_unaccompanied_elder
  • 标识/元数据变量: eets_labelsite_labelidps_ind(范围0.0–40000.0)、schools_public_buidlings(范围0.0–1810.0)、esa_source
  • 其他变量: sitecolumn3child_hohneed_1(如WASH、食品、紧急避难所)、need_2need_3

数据集划分

  • 训练集: 5,536条记录
  • 测试集: 1,384条记录
  • 划分比例: 80/20,使用固定随机种子(42)分割

数据整理过程

  • 原始数据通过CKAN API从HDX下载并转换为Parquet格式
  • 列名统一转换为小写蛇形命名(snake_case)
  • 常见缺失值标记(如N/Anullnone-unknownno data#N/A)统一为NaN
  • 移除了16个缺失率超过80%的列(如gpsgps_latitudegps_longitudegps_altitudegps_precisiondamage_cause等)
  • 移除6个精确重复行
  • 基于解析成功率(超过85%阈值),将1个列从字符串转换为数值或日期时间类型
  • 保存为Snappy压缩的Parquet文件

局限性

  • 数据来自国际移民组织(IOM),未经Electric Sheep Africa独立验证
  • 自动清洗无法纠正原始收集中误报的值、定义不一致或抽样偏差
  • 建议参考发布方在原始HDX数据集页面上的方法论注释和注意事项

引用格式

bibtex @dataset{hdx_africa_displacement_sudan, title = {Sudan Displacement - Ag Geneina - Emergency Event Tracking - IDPs [IOM DTM]}, author = {International Organization for Migration (IOM)}, year = {2025}, url = {https://data.humdata.org/dataset/sudan-displacement-ag-geneina-emergency-event-tracking-idps-iom-dtm}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自国际移民组织(IOM)的流离失所追踪矩阵(DTM)紧急事件追踪系统,旨在捕捉苏丹境内因冲突引发的突发性人口迁移。原始数据通过HDX平台的CKAN API获取,经Electric Sheep Africa团队清洗与标准化后,转化为机器学习就绪的Parquet格式。处理流程包括将列名统一为小写下划线命名法,将缺失值标记(如N/A、null等)统一为NaN,删除缺失率超过80%的16列及6条精确重复行,并依据解析成功率将1列从字符串转换为数值或日期时间类型。最终采用80/20比例随机划分为训练集与测试集,保存为Snappy压缩的Parquet文件。
特点
该数据集聚焦于苏丹西达尔富尔州Ag Geneina地区的境内流离失所者(IDP),涵盖6,920行观测记录,每行代表一级行政单位的观测单元,包含45个变量:29个数值型、15个分类型及1个日期时间型。其地理范围精细至州、县、地点三级,并收录了从家庭户数到个体层面的人口学特征,如按年龄性别分层的名册数据(0-5岁、6-17岁、18-59岁及60岁以上)。尤为独特的是,数据集记录了流离失所者的即时需求(如水、食物、紧急住所)及特殊脆弱群体(如孕妇、哺乳期母亲、残疾人士等),为针对性的应急响应提供了粒度细腻的决策依据。
使用方法
用户可通过HuggingFace Datasets库直接加载该数据集,使用Python代码如`load_dataset("electricsheepafrica/africa-displacement-sudan")`获取训练与测试分割,并转换为pandas DataFrame进行探索性分析。数据集已预设为表格分类任务(tabular-classification),适用于预测流离失所群体的需求或量化影响指标。使用者应留意数据来源为IOM未经独立验证的原始观测,在建模时需考虑历史收集中的报告偏差与定义不一致性,并建议参考HDX原始页面以获取完整方法论说明。
背景与挑战
背景概述
在苏丹达尔富尔地区,武装冲突与族群对立持续引发大规模人口非自愿流动,形成严峻的人道主义危机。国际移民组织(IOM)的流离失所追踪矩阵(DTM)应急事件追踪(EET)系统,旨在捕捉突发的流离失所事件与人口迁移动态,为援助决策提供高频次、细粒度的数据支撑。该数据集于2025年由IOM发布,并由Electric Sheep Africa整理为机器学习就绪的Parquet格式,其核心研究问题聚焦于西达尔富尔州杰奈纳地区因2021年马萨利特与阿拉伯人冲突导致的境内流离失所者(IDP)规模、分布与需求特征。通过整合45个变量(涵盖地理、时间、人口学、健康、庇护需求等多维度),该数据集为人道主义响应中的数据分析与预测建模提供了标准化基础,对理解冲突驱动的人口流动模式及优化资源分配具有深远意义。
当前挑战
该数据集首要挑战在于应对复杂冲突环境下人口追踪的固有难题:流离失所事件突发性强、迁移路径不规律、且数据收集依赖实地访谈与行政报告,易受安全局势制约,导致时间滞后与地理覆盖不完整。构建过程中,原始HDX数据存在大量缺失值(如GPS坐标、伤害原因等16列缺失率超80%)、定义不一致(如空值标记多样)及潜在采样偏差,需通过降噪、标准化为NaN、删除重复行及类型推断等清洗流程加以缓解,但无法彻底校正误报或系统性抽样偏倚。此外,数据集以第一级行政单元为观察单位,可能掩盖村级或个体家庭的异质性,且需求变量(如清洁水、粮食、紧急住所)的分类标签依赖有限调查,难以全面刻画流离失所者的多层次脆弱性,为人道主义机器学习的泛化与实际部署设置障碍。
常用场景
经典使用场景
在人道主义危机响应与人口流动分析领域,该数据集被广泛应用于构建突发性流离失所事件的预测与监测模型。研究者可利用其丰富的空间、时间与人口统计特征,如行政单元编码、事件发生日期、流离失所家庭户数及分年龄段性别构成等,训练分类或回归模型以识别流离失所的热点区域与脆弱群体。该数据集还为多标签分类任务提供了优质标注,例如通过‘need_1’至‘need_3’字段预测受灾群体对水、食品和紧急住所等核心援助的迫切需求,从而辅助资源分配的优先级决策。
解决学术问题
该数据集有效填补了非洲地区精细化流离失所数据在机器学习应用中的空白,解决了传统人道主义数据非结构化、更新滞后且难以直接用于建模的困境。学术研究中,它使学者能够量化分析冲突引发的瞬时人口迁移模式,深入探究地理邻近性、地方行政能力与流离失所规模之间的关联机制。同时,该数据为研究脆弱人群(如孕妇、哺乳期妇女、独居老人和残疾人士)在危机中的分布规律提供了坚实依据,推动了计算社会科学与人道主义物流交叉领域的实证研究,显著提升了危机预测模型的鲁棒性与可解释性。
衍生相关工作
该数据集衍生出一系列具有里程碑意义的工作,包括基于时空图神经网络的流离失所动态传播模型,以及融合卫星影像与表格数据的多模态危机评估框架。研究者还利用其开发了用于人道主义需求分类的轻量级可解释模型,并提出了针对稀疏时间序列的迁移学习策略,极大提升了低数据资源地区的人口迁移预测能力。此外,该数据推动了‘数据驱动的黎民保护’研究议程,激励了后续面向非洲之角与萨赫勒地区的流离失所数据集构建,形成了从苏丹案例到泛非分析平台的系统化知识迁移路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作