five

africa-displacement-congo-dem-rep

收藏
Hugging Face2026-04-28 更新2026-04-29 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-displacement-congo-dem-rep
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集来自国际移民组织(IOM)的位移跟踪矩阵(DTM)公开API,旨在为人道主义社区、学术界、媒体、政府和非政府组织提供DTM收集的数据。数据集包含刚果民主共和国(COD)的次国家行政单位观察数据,每行代表一个行政单位的观察结果。数据集共4,695行,23列(8个数值型,14个类别型,1个日期时间型),分为训练集(3,756行)和测试集(939行)。数据涵盖地理、时间、人口统计、结果测量等多个维度,具体包括行政区域名称和代码、报告日期、男女人数、位移原因等字段。数据集由Electric Sheep Africa整理为适合机器学习的Parquet格式,并提供了详细的数据清洗和标准化过程说明。需要注意的是,数据来源于IOM,未经ESA独立验证,部分字段缺失值较多,使用时需谨慎。
创建时间:
2026-04-26
原始信息汇总

数据集概述:刚果民主共和国 IOM 流离失所追踪矩阵(DTM)

数据集名称:Democratic Republic of the Congo IOM Displacement Tracking Matrix (DTM) from API

发布机构:国际移民组织 (IOM)

数据来源:HDX

许可证:hdx-other

更新日期:2026-04-27

地理范围:COD(刚果民主共和国)

总行数:4,695 行

列数:23 列(8 个数值型,14 个类别型,1 个日期时间型)


数据集说明

本数据集来源于国际移民组织 (IOM) 流离失所追踪矩阵 (DTM) 的公开 API。该 API 向人道主义社区、学术界、媒体、政府和非政府组织提供 DTM 收集的数据。DTM API 仅提供非敏感的国内流离失所者 (IDP) 数据,汇总在国家、Admin 1(省份或同等行政区)和 Admin 2(更小的次国家行政区)级别。每个数据行代表次国家行政单位的观测值,时间覆盖范围由 reportingdate 列指示。


数据集划分

  • 训练集 (train):3,756 行
  • 测试集 (test):939 行

变量说明

  • 地理变量admin0name(刚果民主共和国)、admin0pcode(COD)、admin1name(北基伍、南基伍、坦噶尼喀)、admin1pcode(COD61、COD62、COD74)、admin2name(马西西、鲁丘鲁、瓦利卡莱)等
  • 时间变量reportingdatemonthreportingdate(范围 1.0–12.0)
  • 人口变量numbermales(范围 0.0–926698.0)、numberfemales(范围 -90.0–1358339.0)
  • 结果/测量变量roundnumber(范围 1.0–48.0)
  • 标识符/元数据变量id(范围 155.0–150161.0)、numpresentidpind(范围 1.0–4376465.0)、esa_sourceesa_processed
  • 其他变量operation(全国监测、北基伍、M23危机应对)、operationstatus

数值型列统计摘要

列名 最小值 最大值 均值 中位数
id 155.0 150161.0 63635.0185 58515.5
adminlevel 0.0 2.0 1.5216 2.0
numpresentidpind 1.0 4376465.0 72425.3994 3692.0
yearreportingdate 2016.0 2026.0 2022.7425 2023.0
monthreportingdate 1.0 12.0 7.3333 8.0
roundnumber 1.0 48.0 12.3957 6.0
numbermales 0.0 926698.0 31158.4159 1460.0
numberfemales -90.0 1358339.0 44591.5652 2149.0

数据整理说明

原始数据通过 CKAN API 从 HDX 下载,并转换为 Parquet 格式。列名统一为小写和下划线命名法。常见的缺失值标记(N/A、null、none、-、unknown、no data、#N/A)统一为 NaN。基于解析成功率(>85% 阈值),1 列从字符串转为数值或日期时间类型。数据集使用固定随机种子 (42) 按 80/20 比例拆分为训练集和测试集,并保存为 Snappy 压缩的 Parquet 文件。


局限性说明

  • 数据来源于国际移民组织 (IOM),未经 Electric Sheep Africa (ESA) 独立验证。
  • 自动清理无法纠正原始收集中误报的值、定义不一致或采样偏差。
  • 以下列缺失值超过 20%,在建模中应谨慎使用:admin2nameadmin2pcodenumbermalesnumberfemales

引用格式

bibtex @dataset{hdx_africa_displacement_congo_dem_rep, title = {Democratic Republic of the Congo IOM Displacement Tracking Matrix (DTM) from API}, author = {International Organization for Migration (IOM)}, year = {2026}, url = {https://data.humdata.org/dataset/cod-iom-dtm-from-api}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }

搜集汇总
数据集介绍
main_image_url
构建方式
在全球人道主义危机频发的背景下,刚果民主共和国境内流离失所者追踪矩阵(DTM)数据集应运而生。该数据集源自国际移民组织(IOM)公开API接口,聚合了国家、一级行政区及二级行政区层面的非敏感性国内流离失所者(IDP)数据。原始数据经HDX平台通过CKAN API获取后,由Electric Sheep Africa团队进行系统化清洗与标准化处理:列名统一为小写蛇形命名法,缺失值标记符(如N/A、null等)被归一化为NaN,基于解析成功率超过85%的阈值将字符串列转换为数值或日期类型。最终数据划分80%至训练集、20%至测试集,采用固定随机种子(42)确保可复现性,并以Snappy压缩的Parquet格式存储,共计4695行、23列观测单元。
特点
此数据集在结构设计与内容属性上展现出鲜明特色。领域聚焦于冲突与安全,观测单元为次国家级行政区划的周期性记录。时间跨度自2016年至2026年,覆盖十年间的人道演化轨迹。地理范围涵盖刚果(金)全境,核心变量包括IDP数量(range 1–4,376,465)、性别构成(男性与女性数量)、流离失所原因(冲突、自然灾害等)及监测轮次(1–48)。行政层级变量(adminlevel 0–2)支持从省级到地方的多粒度分析。值得注意的是,数据集保留了原始来源的元数据标识(esa_source、esa_processed),为追踪数据溯源提供便利。缺失值集中存在于二级行政区及性别变量中(>20%),需在建模时审慎处理。
使用方法
该数据集可通过Hugging Face Datasets库快速加载使用,适用于表格分类及其他机器学习任务。使用者可调用load_dataset函数直接获取已预划分的训练集与测试集,并便捷地转换为pandas DataFrame进行探索性分析。数据集中包含8个数值型、14个分类型及1个时间型变量,支持时间序列建模、人口流动预测及冲突影响评估等多维度研究。推荐将‘numpresentidpind’(当前IDP数量)作为核心目标变量,结合行政区域、流离失所原因及监测轮次等特征构建预测模型。需注意,部分列如admin2name、numbermales等缺失比例较高,建议在预处理阶段进行插补或排除,而reportingdate与monthreportingdate则为时间依赖型模型提供了天然的时间轴锚点。
背景与挑战
背景概述
刚果民主共和国(DRC)长期深陷武装冲突与人道主义危机,导致大规模人口流离失所,已成为全球最严峻的境内流离失所者(IDP)问题之一。为应对这一挑战,国际移民组织(IOM)自2016年起通过其“流离失所追踪矩阵”(DTM)项目,系统收集并发布该国IDP的分布与动态数据。该数据集由IOM于2026年通过人道主义数据交换平台(HDX)的API提供,并由非洲机器学习基础设施机构Electric Sheep Africa整理为Parquet格式,旨在支持学术界、人道主义组织及政府机构开展数据驱动的分析与决策。数据集涵盖2016至2026年间刚果民主共和国国家、一级行政区和二级行政区的非敏感IDP统计信息,包含4695条记录和23个变量,如性别分布、流离失所原因及评估轮次编号,为理解冲突驱动的被迫迁徙模式提供了关键经验证据。
当前挑战
该数据集解决的核心领域问题在于缺乏系统化的IDP时空分布量化数据,人道主义行动长期依赖碎片化或滞后的报告,难以精准定位援助需求。构建过程中面临多重挑战:原始数据源自IOM的API,未经独立验证,可能存在报告偏差或定义不一致;自动清洗流程无法纠正误报值或抽样偏差。数据集中超过20%的列存在缺失值,如二级行政区名称(34.2%缺失)和性别人数(35.8%缺失),显著影响模型训练的鲁棒性。时间覆盖范围从2016年跨越至2026年,但部分行政区域记录稀疏,轮次编号(1-48轮)与报告日期之间的对齐存在数据稀疏性问题。此外,女性人数出现负值(-90.0),暗示原始采集可能存在数据录入错误,亟需领域专家介入进行抽样校验与语义校准。
常用场景
经典使用场景
在非洲人道主义危机与冲突研究的学术版图中,刚果民主共和国因其长期存在的武装冲突和境内流离失所问题,成为国际社会关注的焦点。该数据集的核心价值在于提供了国际移民组织通过位移追踪矩阵收集的精细化结构化数据,涵盖从国家到行政区划二级的IDP(境内流离失所者)分布信息。经典的使用场景是将其作为监督学习的分类与回归任务的基础输入,例如构建预测模型来估计特定行政区域在未来时间段内的IDP人数变化趋势,或根据历史数据识别出哪些地区即将成为新的流离失所热点。研究者借助这些时空切片,能够模拟和验证冲突动态与人口迁移之间的内在关联。
解决学术问题
该数据集从方法论和实证层面对人道主义数据科学领域的若干关键学术难题提供了支撑。其一,它缓解了非洲冲突地区缺乏高质量、可机读结构化人口迁移数据的困境,使得基于机器学习的定量分析取代纯质性描述成为可能。其二,通过包含admin1和admin2级别的细粒度地理编码,研究者可以探究宏观武装冲突与微观社区层面人口流动之间的非线性耦合关系,揭示传统回归模型难以捕捉的空间异质性。其三,数据集预置的train/test划分和清洗流程降低了统计建模中的预分析偏差,促进了可复现的学术研究。这些贡献推动了冲突地理学、人口迁移建模以及危机响应优化等方向的进步。
衍生相关工作
围绕该数据集,学术界和人道数据社群已衍生了多个方向的创新工作。一些研究者将其与夜间灯光卫星影像或社交媒体情感分析数据对齐,构建多模态融合模型来揭示经济剥夺与暴力驱动型人口迁移之间的隐蔽链路。另有一些小组基于该数据集的时空结构,开发了面向稀缺标签场景的图神经网络架构,用于在刚果东部行政网络图上推演IDP流动的扩散模式。此外,Electric Sheep Africa团队本身就将该数据集作为其非洲ML基础设施生态的组成部分,整合进标准化的Parquet管道中,为后续诸如马里、苏丹等类似冲突区域的对比分析和迁移学习奠定了技术和数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作