five

africa-displacement-zimbabwe

收藏
Hugging Face2026-04-29 更新2026-04-30 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-displacement-zimbabwe
下载链接
链接失效反馈
官方服务:
资源简介:
津巴布韦流离失所数据 - Tsholotsho地区基线评估数据集由国际移民组织(IOM)发布,记录了2016年至2018年10月期间津巴布韦Tsholotsho地区的流离失所和移民趋势,并评估了受影响人口的需求。数据集包含355条观测记录,涵盖38个特征变量(12个数值型、25个类别型和1个日期时间型),按80/20比例划分为训练集(284条)和测试集(71条)。数据观测单位为次国家行政单位,地理范围限定为津巴布韦(ZWE)。数据集包含地理信息(省份、地区、选区等)、时间信息(评估日期)、人口统计信息(家庭数量、个体数量等)以及标识符/元数据等多个维度的变量。该数据集适用于表格回归等任务,可用于研究强制流离失所和移民问题。数据集由Electric Sheep Africa团队整理为ML-ready的Parquet格式,并进行了标准化清洗和缺失值处理。
创建时间:
2026-04-24
原始信息汇总

数据集概述:津巴布韦 Tsholotsho 地区流离失所数据(IOM 基线评估)

基本信息

  • 数据集名称:Zimbabwe Displacement Data - Tsholotsho District - Baseline Assessment [IOM DTM]
  • 发布机构:国际移民组织(IOM)
  • 来源HDX
  • 许可证hdx-other
  • 最后更新:2025-04-25
  • 数据集大小:n<1K
  • 语言:英语(单语)

数据集概述

该数据集记录了津巴布韦 Tsholotsho 地区在 2016 年之前至 2018 年 10 月期间的流离失所与迁移趋势,同时评估受影响人口的需求。每一行代表一个次国家级行政单位观测值,地理范围为 ZWE(津巴布韦)。该数据集由 Electric Sheep Africa 整理为机器学习就绪的 Parquet 格式。

数据集特征

项目 说明
领域 被迫流离失所与人口迁移
观测单位 次国家级行政单位观测
总行数 355
列数 38(12 个数值型,25 个分类型,1 个日期时间型)
训练集 284 行
测试集 71 行
地理范围 ZWE(津巴布韦)
发布机构 国际移民组织(IOM)

主要变量

地理变量

  • province:省(Matabeleland North)
  • district:区(Tsholotsho)
  • ward:选区(Ward 5、Ward 6、Ward 15)
  • type:类型(Rural)
  • sex:性别(Female、Male)

时间变量

  • date_of_assessment:评估日期

人口统计变量

  • number_of_households:家庭数量(范围 1.0–1.0)
  • number_of_individuals:个人数量(范围 2.0–7.0)
  • number_of_household:另一家庭数量(范围 1.0–3.0)
  • number_of_individual:另一个人数量(范围 1.0–7.0)

标识符/元数据变量

  • is_there_idps_in_camp_like_sites_or_centers:是否存在营地式场所中的境内流离失所者
  • esa_source:数据来源标识
  • esa_processed:数据处理标识

其他变量

  • pcod:地区代码(TSH005、TSH006、TSH015)
  • arrival_before_2016arrival_2016arrival_2017arrival_2018:各年份到达情况
  • departure_before_2016departure_during_2016departure_during_2017departure_during_2018:各年份离开情况

数据拆分

数据按照 80/20 比例随机拆分为训练集和测试集(固定随机种子 42),并保存为 Snappy 压缩的 Parquet 格式。

  • 训练集:284 行
  • 测试集:71 行

数据整理说明

原始数据通过 CKAN API 从 HDX 下载并转换为 Parquet 格式。列名统一转换为小写蛇形命名法(snake_case),常见缺失值标记统一替换为 NaN。删除了缺失率超过 80% 的 25 个列。

使用建议

以下列缺失值超过 20%,在建模时应谨慎处理:

  • number_of_households(47.6% 缺失)
  • number_of_individuals(47.6% 缺失)
  • arrival_before_2016(47.6% 缺失)
  • number_of_household(79.7% 缺失)
  • number_of_individual(79.4% 缺失)
  • idps_arrived_before_2016_from_wich_province(79.4% 缺失)
  • arrival_2016(47.6% 缺失)
  • arrival_2017(47.6% 缺失)

限制说明

  • 数据来源于国际移民组织(IOM),未经 Electric Sheep Africa 独立验证。
  • 自动清洗无法纠正原始数据中的误报、定义不一致或抽样偏差问题。
  • 建议参考 原始 HDX 数据集页面 了解发布者的方法说明和注意事项。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自国际移民组织(IOM)在津巴布韦北马塔贝莱兰省措洛措洛地区开展的基线评估,原始数据通过人道主义数据交换平台(HDX)的CKAN API获取。Electric Sheep Africa团队对原始数据进行系统化清洗与重构,包括将列名统一转换为小写蛇形命名法、标准化缺失值标记为NaN,并剔除缺失率超过80%的无效字段。最终数据被分割为训练集(284条)与测试集(71条),以Snappy压缩Parquet格式存储,确保高效的机器学习就绪状态。
特点
该数据集聚焦津巴布韦措洛措洛地区2016年前至2018年10月间的境内流离失所与人口迁移趋势,包含355条子国家行政单元观测记录及38个字段(12个数值型、25个类别型与1个时间戳)。其涵盖家庭户与个体数量、不同年份的抵达与离开情况、迁移路线及住宿模式等关键信息,并特设迁入者原籍省份(同一区域或跨区)与迁移交通工具等变量,为分析流离失所动态与需求评估提供了精细化视角。
使用方法
用户可通过HuggingFace的datasets库直接加载该数据集,使用`load_dataset("electricsheepafrica/africa-displacement-zimbabwe")`命令获取训练与测试分片,并借助`.to_pandas()`方法转换为DataFrame格式进行后续分析。该数据集适用于时序回归与分类建模任务,但需注意部分字段(如`number_of_households`、`arrival_before_2016`等)存在超过20%的缺失值,建模时应审慎处理。
背景与挑战
背景概述
在非洲南部,气候变化与资源竞争加剧了人口非自愿流动,精准监测境内流离失所者(IDP)的时空分布对人道主义响应至关重要。国际移民组织(IOM)自2016年起在津巴布韦北马塔贝莱兰省措洛措洛地区开展基线评估,并于2025年由非洲人工智能基础设施团队Electric Sheep Africa将原始数据整理为机器学习就绪的Parquet格式。该数据集包含355条子国家级行政单元观测记录,覆盖2016年前至2018年10月期间的迁移趋势与受影响人口需求,为研究非洲干旱半干旱地区流离失所模式提供了首个可复用的结构化数据资产,显著推动了人道主义数据科学在非洲大陆的本土化应用。
当前挑战
该数据集面临的核心挑战首先在于领域问题层面:流离失所人口与迁移动态的因果机制高度复杂,传统线性模型难以捕捉环境胁迫、治理脆弱性与人口流动的非线性耦合关系,而数据中高达47.6%的指标缺失率(如家庭与个体数量字段)进一步加剧了建模偏差。其次,构建过程中暴露出原始数据采集的抽样偏倚——仅覆盖3个乡村选区,且时态粒度粗放至年际尺度,无法解析季节性迁移或突发灾害响应的精细时序;自动化清洗流程虽统一了缺失值标记,但无法纠正跨机构间关于“流离失所”定义的语义歧义,例如营地居住与家庭安置两种情境下的分类标准不统一,致使部分字段注释信息(如“comment_this_field_is_requiered”)缺失率高达66%,增加了下游任务中特征工程的困难度。
常用场景
经典使用场景
在强制流离失所与人道主义援助的研究领域,精准刻画受危机影响的脆弱群体时空分布是制定应对策略的基石。Zimbabwe Displacement Data - Tsholotsho District - Baseline Assessment [IOM DTM]数据集以其基于次国家级行政单元的观测粒度,为学者提供了一个探究津巴布韦北马塔贝莱兰省Tsholotsho地区人口迁移规律的珍贵样本。该数据集涵盖了2016年之前直至2018年10月间的流离失所与人口流动趋势,并包含对受影响群体需求的评估信息。每一条记录都对应着一个特定行政单元在给定时间点上的截面观测,这使得研究者能够利用这些结构化的表格数据,开展诸如回归分析、时序预测或分类任务,例如预测某一聚落是否存在境内流离失所者(IDP),或是估计特定区域内的流离失所人数。数据集内蕴含的丰富类别与数值特征,为开发精确的应急响应模型和资源配置算法提供了可复现的实验平台。
实际应用
在实际应用层面,此数据集是国际组织、政府机构及非政府组织优化人道主义响应行动的关键数据基础设施。举例而言,IOM及联合国人道主义事务协调厅(OCHA)可借助此数据集训练出的模型,在类似Tsholotsho的偏远农村区域,快速识别出流离失所者集中分布的高风险行政单元(Ward),从而避免依赖滞后且成本高昂的人工普查。这不仅缩短了从灾害发生到援助物资抵达的决策链条,还使得人员与物资的预部署更加有的放矢。同时,数据集中关于迁移交通方式与家庭构成的信息,能够支持物流规划与营地资源分配的精细化管理。对于各国政府内部负责安置事务的部门而言,该数据集提供了一个可复用的基线评估模板,用于对比不同时期的流民变化趋势,从而监督本国的减少流离失所风险(DRR)政策是否有效落地。
衍生相关工作
该数据集的发布直接激发了围绕数据融合与跨域迁移学习的相关研究。Electric Sheep Africa团队将其从原始的CSV形式清洗并转换为机器学习就绪的Snappy压缩Parquet格式,这一工作本身即成为数据加工领域的标杆实践。在此基础上,衍生出的典型工作包括:利用该数据集的特征空间作为源域,结合迁移学习技术,将训练好的流离失所预测模型泛化至其他非洲国家(如索马里或南苏丹)的类似情境中,以解决目标域标注数据稀缺的问题。另有研究者尝试将其与遥感卫星影像数据集(如夜间灯光DN值)进行多模态融合,以捕捉人口流动与区域经济活动衰退之间的深层关联。此外,数据集中的时间戳特征激发了针对非平衡时序事件(如离散年份的人口突然迁入)的异常检测算法研究,这些工作共同推进了计算社会科学在人道主义响应领域的边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作