five

africa-somalia-internally-displaced-persons-idps

收藏
Hugging Face2026-04-15 更新2026-04-16 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-somalia-internally-displaced-persons-idps
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为“索马里:国内流离失所者(IDPs)”,由联合国难民署(UNHCR)的保护和返回监测网络(PRMN)整理,包含2016年1月至2022年10月期间索马里国内流离失所者的数据。数据集记录了流离失所者的来源和目的地地区、流离失所原因等信息,每条数据代表一个次国家级行政单位的观察结果。数据集总共有76行数据,分为60行训练集和15行测试集,包含7个分类变量,如当前地区、当前行政区、总人口数等。数据集适用于机器学习和数据分析任务,特别是在人道主义援助和移民研究领域。数据集由Electric Sheep Africa进行了标准化处理,转换为Parquet格式,并进行了缺失值统一和标准化命名。

This dataset, titled "Somalia: Internally Displaced Persons (IDPs)", was compiled by the Protection and Return Monitoring Network (PRMN) under the United Nations High Commissioner for Refugees (UNHCR), and contains data on internally displaced persons in Somalia covering the period from January 2016 to October 2022. It records details including the origin and destination regions of displaced individuals, causes of displacement, and other relevant information, with each entry corresponding to an observation of a sub-national administrative unit. The dataset comprises a total of 76 rows, split into 60 rows for the training set and 15 rows for the test set, and includes seven categorical variables such as current region, current administrative district, and total population. This dataset is applicable to machine learning and data analysis tasks, especially within the domains of humanitarian aid and migration research. It was standardized by Electric Sheep Africa, converted to the Parquet file format, and processed with uniform handling of missing values and standardized naming conventions.
创建时间:
2026-04-08
原始信息汇总

数据集概述:索马里境内流离失所者 (IDPs)

基本信息

  • 数据集名称:Somalia: Internally Displaced Persons (IDPs)
  • 发布者:UNHCR - The UN Refugee Agency
  • 数据来源:HDX (https://data.humdata.org/dataset/somalia-internally-displaced-persons-idps)
  • 整理者:Electric Sheep Africa (https://huggingface.co/electricsheepafrica)
  • 许可协议:cc-by-4.0
  • 语言:英语
  • 多语言性:单语
  • 规模类别:n<1K
  • 任务类别:其他
  • 标签:africa, humanitarian, hdx, electric-sheep-africa, baseline-population, displacement, internally-displaced-persons-idp, refugees, som

数据集内容

  • 领域:强迫流离失所与移民
  • 观测单位:次国家级行政单位观测数据
  • 数据时间范围:2016年1月至2022年10月
  • 地理范围:索马里 (SOM)
  • 总行数:76
  • 列数:7
  • 数据分割
    • 训练集:60行
    • 测试集:15行
  • HDX最后更新日期:2025-04-28
  • ESA处理日期:2026-04-08

变量说明

数据集包含7个分类变量,无数值变量和日期时间变量。

地理变量

  • curentregion:当前区域(例如:Lower Shabelle, Bari, Gedo)
  • currentmapdistrict:当前地图区域(例如:Laasqoray, Qardho, Baki)
  • admin2_name:二级行政区名称(例如:Laasqoray, Qardho, Baki)
  • admin2_pcode:二级行政区代码(例如:SO1503, SO1606, SO1102)

标识符/元数据变量

  • esa_source:数据来源(固定为“HDX”)
  • esa_processed:ESA处理日期(固定为“2026-04-08”)

其他变量

  • sum_of_allpeople:总人数(例如:2,522, 2,059, 5,694)

数据结构

所有列均为对象类型,无空值。

数据整理过程

  • 原始数据通过CKAN API从HDX下载并转换为Parquet格式。
  • 列名被转换为小写和蛇形命名法。
  • 常见的缺失值标记被统一为NaN
  • 数据集使用固定的随机种子(42)按80/20的比例分割为训练集和测试集,并保存为Snappy压缩的Parquet文件。

使用方式

python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-somalia-internally-displaced-persons-idps")

局限性

  • 数据来源于联合国难民署,未经ESA独立验证。
  • 自动清洗无法纠正原始收集中误报的值、定义不一致或抽样偏差。
  • 有关发布者自身的方法说明和注意事项,请参考原始HDX数据集页面 (https://data.humdata.org/dataset/somalia-internally-displaced-persons-idps)。

引用

bibtex @dataset{hdx_africa_somalia_internally_displaced_persons_idps, title = {Somalia: Internally Displaced Persons (IDPs)}, author = {UNHCR - The UN Refugee Agency}, year = {2025}, url = {https://data.humdata.org/dataset/somalia-internally-displaced-persons-idps}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }

搜集汇总
数据集介绍
main_image_url
构建方式
在难民与流离失所者监测领域,该数据集由联合国难民署(UNHCR)下属的保护与回返监测网络(PRMN)系统收集并整理。原始数据涵盖2016年1月至2022年10月期间索马里境内流离失所者的动态信息,包括来源地与目的地的区域、行政区划、迁移原因及人口数量。数据通过人道主义数据交换平台(HDX)公开发布,并由Electric Sheep Africa团队进行标准化处理,统一了缺失值标记并转换为Parquet格式,最后按80:20的比例划分为训练集与测试集,确保了数据的机器学习可用性。
特点
本数据集以索马里境内流离失所者为观测对象,共包含76条记录,每条记录代表一个次国家级行政单元的观测数据。数据集涵盖7个分类变量,如当前区域、当前行政区划、人口数量及行政编码等,无数值型或时间型字段。数据具有高度的结构一致性,缺失值为零,且经过统一的蛇形命名法标准化。其地理范围限定于索马里,时间跨度近七年,为研究强迫迁移模式提供了精细的时空维度。
使用方法
研究人员可利用Hugging Face的datasets库直接加载该数据集,通过调用load_dataset函数即可获取训练集与测试集。数据以Pandas DataFrame格式呈现,便于进行探索性分析与建模。典型应用包括流离失所人口的空间分布分析、迁移动因的统计建模,或作为人道主义响应决策的基线数据。使用时应参考原始发布方的方法说明,并注意数据可能存在报告偏差或定义不一致的局限。
背景与挑战
背景概述
索马里境内流离失所者数据集由联合国难民署(UNHCR)及其保护与回返监测网络(PRMN)于2025年4月发布,并由Electric Sheep Africa机构重新整理为机器学习可用格式。该数据集聚焦于人道主义危机背景下的强迫流离失所现象,核心研究问题在于量化与分析索马里自2016年至2022年间国内人口流动的时空模式、动因及规模。通过记录出发与抵达地区、流离失所原因及人口数量等关键变量,为冲突研究、人道援助政策制定及区域稳定性评估提供了实证基础,对理解非洲之角复杂的人口迁移动态具有重要参考价值。
当前挑战
该数据集旨在解决强迫流离失所领域的监测与预测挑战,其核心难题在于如何在动荡环境中实现人口流动数据的持续、准确采集,并克服因安全限制、报告机制不一致及定义差异所导致的数据偏差。构建过程中,原始数据来自实地监测网络,面临信息缺失、格式非标准化及潜在误报等障碍;尽管经过自动化清洗与统一处理,但数据集规模有限,仅包含76条观测记录,且未能独立验证原始值的可靠性,这限制了其在复杂机器学习模型中的泛化能力与应用深度。
常用场景
经典使用场景
在非洲人道主义研究领域,该数据集为分析索马里境内流离失所者(IDPs)的时空分布提供了关键数据支撑。研究者通常利用其记录的区域、行政区划及人口数量信息,构建流离失所动态模型,以揭示冲突、气候灾害等因素驱动的人口迁移规律。这类分析有助于理解流离失所现象的聚集特征与演变趋势,为区域稳定性评估奠定实证基础。
衍生相关工作
围绕该数据集,已衍生出多项聚焦于非洲强迫迁移的经典研究工作。例如,学者利用其构建了索马里流离失所风险预测模型,将行政单元特征与冲突事件数据结合,以识别高脆弱地区。另有研究整合多源遥感信息,分析环境压力与IDPs空间格局的关联性。这些工作拓展了数据在混合方法研究中的应用,促进了人道主义数据分析与机器学习技术的交叉融合。
数据集最近研究
最新研究方向
在非洲人道主义数据科学领域,索马里境内流离失所者数据集正推动着前沿研究的发展。该数据集整合了联合国难民署监测网络提供的细粒度行政单元观测记录,为理解冲突与气候变迁驱动的人口流动模式提供了关键实证基础。当前研究热点聚焦于利用机器学习技术,特别是时空预测模型,分析流离失所潮的时空演化规律及其与区域安全事件的关联性。学者们通过融合多源异构数据,致力于构建动态风险评估框架,以提升人道主义响应的精准性与时效性。这些探索不仅深化了对非洲之角脆弱性成因的认知,也为国际组织制定保护性政策提供了数据驱动的决策支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作