africa-displacement-burkina-faso
收藏Hugging Face2026-04-29 更新2026-04-30 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-displacement-burkina-faso
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含布基纳法索东部地区的国内流离失所者(IDPs)和返回者数据,以及流离失所人口的需求信息。数据集由国际移民组织(IOM)发布,包含35条记录和113个字段(40个数值型、71个类别型、2个日期时间型),分为28条训练数据和7条测试数据。每条记录代表一级行政单位的观察结果,涵盖地理、时间、人口统计和结果测量等多个维度。数据集适用于表格回归和其他相关任务,重点关注非洲、人道主义、流离失所等主题。数据经过Electric Sheep Africa整理,转换为Parquet格式以便机器学习使用。
创建时间:
2026-04-25
原始信息汇总
数据集概述:Burkina Faso Displacement Data - Site Assessment [IOM DTM]
基本信息
- 数据集名称:Burkina Faso Displacement Data - Site Assessment [IOM DTM]
- 发布机构:International Organization for Migration (IOM)
- 数据来源:HDX
- 许可协议:
hdx-other - 最后更新日期:2025-04-25
- 语言:英文
- 领域:强制流离失所与移民
- 地理范围:布基纳法索(BFA)
- 标注情况:无标注(no-annotation)
- 任务类别:表格回归(tabular-regression)、其他(other)
数据集规模与划分
| 划分 | 样本数 |
|---|---|
| 训练集(train) | 28 行 |
| 测试集(test) | 7 行 |
| 总计 | 35 行 |
- 特征数量:113 列(40 个数值型、71 个分类型、2 个日期时间型)
- 观测单位:第一级行政区划观测
数据内容概述
该数据集包含布基纳法索东部地区境内流离失所者(IDP)和返乡者数据,数据粒度为国家以下第一级行政区划。此外还包含流离失所人口的需求信息。
主要变量类别
地理变量
a3_province:省份(如 Gourma、Komonjdjari、Kompienga)a3_province_pcode:省份代码(如 BF5202、BF5203、BF5204)a6_type_de_commune:市镇类型(Rural、Urbain 等)a7_type_du_lieu_de_déplacement:流离失所地点类型(village、secteur、centre_collectif)latitude/longitude:经纬度坐标
时间变量
date_reported:报告日期date_de_l_évaluation:评估日期
人口统计变量
b1_ménages_déplacées_internes:流离失所家庭数(范围 1.0–150.0)b1_personnes_déplacées_internes:流离失所人数(范围 12.0–900.0)- 多次流离失所家庭数、2019 年流离失所人口等
结果/测量变量
total_abris:庇护所总数(范围 1.0–150.0)- 水井、水源等基础设施数量
标识/元数据变量
a2_région_pcode:地区代码id、index等
其他变量
- 庇护所类型(草棚、帐篷、砖房)、家庭安置方式(寄宿家庭、自有房产、租赁等)
- 弱势群体(孕妇、哺乳期妇女、残疾人、老年人等)
- 安全感知、水源获取、教育、医疗、食品、市场、援助、通讯等信息
数据处理与整理
- 原始数据通过 HDX 的 CKAN API 下载并转换为 Parquet 格式
- 列名统一为小写蛇形命名法
- 常见缺失值标记统一为
NaN - 移除了 67 列缺失值超过 80% 的列
- 7 列从字符串转换为数值或日期时间类型
- 按 80/20 比例划分为训练集和测试集,使用固定随机种子(42)
- 保存为 Snappy 压缩的 Parquet 格式
使用注意事项
数据局限
- 数据来源于 IOM,未经独立验证
- 自动清理无法修正误报、定义不一致或原始采样偏差
- 以下列缺失值超过 20%,在建模中应谨慎使用:
b4a_quel_est_le_nombre_de_ménages_de_la_population_autochtone(77.1% 缺失)b4b_quel_est_le_nombre_d_individus_de_la_population_autochtone(77.1% 缺失)- 多次流离失所家庭数(80% 缺失)
- 寄宿家庭、自有房产、租赁等安置方式家庭数(25.7%–71.4% 缺失)
快速加载示例
python from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-displacement-burkina-faso") train = ds["train"].to_pandas() test = ds["test"].to_pandas()
引用格式
bibtex @dataset{hdx_africa_displacement_burkina_faso, title = {Burkina Faso Displacement Data - Site Assessment [IOM DTM]}, author = {International Organization for Migration (IOM)}, year = {2025}, url = {https://data.humdata.org/dataset/burkina-faso-displacement-data-site-assessment-iom-dtm}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }
搜集汇总
数据集介绍

构建方式
该数据集源自国际移民组织(IOM)在布基纳法索东部地区开展的实地评估,原始数据通过人道主义数据交换平台(HDX)的CKAN API获取。Electric Sheep Africa团队对原始数据进行清洗与标准化处理,统一列名格式为小写下划线形式,将常见的缺失值标记如“N/A”、“null”等统一转换为NaN。在此基础上,剔除了缺失率超过80%的67个冗余列,并根据解析成功率将7个字段从字符串类型转换为数值或日期时间类型。最终以固定随机种子(42)将数据按80/20的比例划分为训练集与测试集,并采用Snappy压缩的Parquet格式存储,确保数据加载高效且兼容主流机器学习框架。
特点
该数据集以布基纳法索东部地区三个省份(古尔马、科蒙贾里、孔皮恩加)的一级行政单元为观测单位,涵盖113个字段,包括40个数值型、71个类别型和2个日期时间型变量。核心信息涵盖境内流离失所者(IDP)与回归者的规模、流动轨迹(如多次迁徙情况)、庇护所类型与数量、水资源获取途径、医疗教育资源可达性等多元维度。数据的时间跨度为2016年至2019年,部分字段记录了人口在不同年份的迁移历史,为分析长期流离失所动态提供了纵向视角。此外,数据集还包含了女性、儿童、残疾人等弱势群体的专门统计指标,为人道主义响应中的精准干预提供了细粒度的量化依据。
使用方法
用户可通过HuggingFace Datasets库直接加载该数据集,使用`load_dataset("electricsheepafrica/africa-displacement-burkina-faso")`命令即可获取包含28条训练样本和7条测试样本的标准化数据。推荐将数据转换为Pandas DataFrame格式以进行后续探索性分析与建模。数据集中包含大量分类变量和缺失比例较高的字段(如部分关于当地人口和多次迁移的指标缺失率超过20%),在使用时建议根据具体研究任务进行特征筛选或缺失值处理。该数据集适用于回归分析、迁移模式挖掘以及人道主义需求评估等场景,研究者亦可结合地理坐标信息进行空间可视化与区域对比分析。
背景与挑战
背景概述
布基纳法索东部地区因安全局势恶化而出现了大规模人口流离失所现象,境内流离失所者(IDPs)及返乡者的生存状况与需求成为人道主义救援领域亟待关注的议题。国际移民组织(IOM)于2019年前后在该地区推行了场地评估机制,系统收集了次国家级行政单元的人口流动、居住条件、饮水安全、医疗可及性等多维度数据。Electric Sheep Africa团队在此基础上,于2025年对原始数据进行了清洗、标准化和机器学习友好型转换,最终形成了该数据集。该数据集以35条记录、113个特征变量的精细粒度,首次将人道主义评估数据引入机器学习流水线,为人道主义情境下的回归预测、资源分配建模等研究提供了珍贵的基础资源。
当前挑战
该数据集面临的领域挑战主要体现在:流离失所人口的动态性与高变异性使得传统静态模型难以捕捉其演化规律,而资源匮乏地区的稀疏数据进一步加剧了预测的不确定性。在构建过程中,原始数据来自IOM现场评估,未被独立验证,存在误报与抽样偏差;大量特征缺失率超过80%,例如土著人口计数、多次迁移记录等字段的空值比例极高,需在建模中谨慎处理。此外,自动化清洗虽能统一缺失标记与类型转换(如将7列字符串转为数值或时间类型),但无法修正定义不一致或采集过程中的系统性偏误,列名语言混杂(法英混合)也增加了跨语境应用的迁移难度。
常用场景
经典使用场景
在萨赫勒地区安全形势持续恶化的背景下,布基纳法索东部省份的内部流离失所问题日益严峻。该数据集汇集了国际移民组织(IOM)在省级行政单元层面开展的场地评估数据,详尽记录了境内流离失所者(IDP)与回返者的分布规模、迁徙轨迹、庇护所类型以及水、医疗、教育等基本服务的可及性。其经典使用场景涵盖了利用回归模型预测流离失所人口的空间分布,通过聚类分析识别高需求区域,以及构建脆弱性评估指标体系,为人道主义响应决策提供量化支撑。
实际应用
在实际应用中,该数据集为人道主义行动者提供了精准的态势感知工具。联合国机构与非政府组织可依据数据中的社区类型、供水距离、医疗可及性等指标,优化援助资源的空间分配,例如优先支持无庇护所比例超过阈值的聚集点。政府决策部门能通过回返者规模与年份标志字段,动态评估安全局势恢复进程,调整境内安置与重返社会方案。此外,数据中关于通信网络覆盖和信息需求的条目,为移动预警系统与数字服务的定向部署提供了可操作的参考基线。
衍生相关工作
围绕该数据集衍生的经典工作集中于机器学习驱动的预测建模与空间分析。研究者基于IDP规模与庇护所数量等数值变量,开发了随机森林回归模型以预测未来流离失所峰值;另有工作利用地理编码信息,结合夜间灯光遥感数据,评估冲突对定居点经济活动的破坏程度。在方法论层面,数据中高缺失率列的处理催生了面向人道主义数据的不完整值插补技术,如基于行政单元邻近性的多重填补方法。这些工作共同拓展了计算社会科学在人道主义响应领域的应用边界。
以上内容由遇见数据集搜集并总结生成



