africa-population-nigeria
收藏Hugging Face2026-04-29 更新2026-04-30 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-population-nigeria
下载链接
链接失效反馈官方服务:
资源简介:
EM-DAT - 国家概况,尼日利亚数据集由流行病学研究中心发布,来源于人道主义数据交换平台(HDX)。该数据集聚焦于尼日利亚的自然灾害相关事件,提供了按年份、国家和灾害子类型分类的聚合数据,包括灾害数量、受影响总人数、死亡总数以及经济损失(原始值和调整值)。数据集包含44行数据,分为35行的训练集和8行的测试集,涵盖15个字段(7个数值型,8个分类型)。地理范围限定为尼日利亚(NGA),时间跨度为2000年至2025年。数据集适用于表格分类任务,特别是在人口统计、灾害影响评估和经济损失分析等领域。数据经过Electric Sheep Africa处理,转换为ML-ready的Parquet格式,并进行了标准化清理和缺失值统一处理。需要注意的是,部分字段(如死亡总数和经济损失)缺失值较多,使用时应谨慎。
创建时间:
2026-04-26
原始信息汇总
数据集详情:EM-DAT - Country Profiles, Nigeria
数据集概述
该数据集由Centre for Research on the Epidemiology of Disasters发布,来源于HDX平台,由Electric Sheep Africa整理为ML就绪的Parquet格式。数据集涵盖尼日利亚(NGA)的自然灾害相关事件汇总数据,每条记录对应特定年份、国家、灾害子类型的组合,包含灾害次数、受影响人数、死亡人数和经济损失等信息。
基本信息
| 属性 | 内容 |
|---|---|
| 数据集名称 | EM-DAT - Country Profiles, Nigeria |
| 领域 | 人口与人口统计 |
| 观察单位 | 国家级别汇总 |
| 总行数 | 44 |
| 列数 | 15(7个数值型,8个分类型) |
| 地理范围 | NGA(尼日利亚) |
| 语言 | 英文 |
| 许可证 | hdx-other |
| HDX最后更新 | 2026-04-24 |
数据集划分
| 分区 | 样本数 |
|---|---|
| 训练集(train) | 35 |
| 测试集(test) | 8 |
变量说明
地理相关变量
- year(年份):范围 2000.0–2025.0
- country(国家):Nigeria
- iso(国家代码):NGA
- disaster_type(灾害类型):Flood, Storm
- disaster_subtype(灾害子类型):Riverine flood, Flood (General), Flash flood
人口相关变量
- total_damage_usd_original(原始经济损失):147000.0–4200000000.0 美元
- total_damage_usd_adjusted(调整后经济损失):236120.0–4501867921.0 美元
结果/测量变量
- total_events(事件总数):1.0–5.0
- total_affected(受影响总人数):12.0–19110398.0
- total_deaths(死亡总人数):1.0–1354.0
标识/元数据变量
- esa_source(数据源):HDX
- esa_processed(处理日期):2026-04-29
其他变量
- disaster_group(灾害组别):Natural
- disaster_subroup(灾害亚组):Hydrological, Meteorological
- cpi(消费者价格指数):54.8952–100.0
数值变量统计摘要
| 列名 | 最小值 | 最大值 | 均值 | 中位数 |
|---|---|---|---|---|
| year | 2000.0 | 2025.0 | 2011.5116 | 2011.0 |
| total_events | 1.0 | 5.0 | 1.5581 | 1.0 |
| total_affected | 12.0 | 19110398.0 | 870676.9756 | 12000.0 |
| total_deaths | 1.0 | 1354.0 | 133.3824 | 34.0 |
| total_damage_usd_original | 147000.0 | 4200000000.0 | 360194800.0 | 25000000.0 |
| total_damage_usd_adjusted | 236120.0 | 4501867921.0 | 427198637.0 | 20920112.5 |
| cpi | 54.8952 | 100.0 | 71.8016 | 71.7077 |
数据整理说明
- 原始数据通过CKAN API从HDX下载并转换为Parquet格式
- 列名转换为小写并标准化为snake_case
- 常见缺失值标记统一转换为NaN
- 5列基于解析成功率(>85%)从字符串转换为数值或日期类型
- 数据集按80/20比例随机划分为训练集和测试集(固定随机种子42)
- 使用Snappy压缩的Parquet格式保存
限制与注意事项
- 数据来源于Centre for Research on the Epidemiology of Disasters,未经ESA独立验证
- 自动清洗无法修正原始采集中的误报、定义不一致或抽样偏差
- 以下列缺失率超过20%,在建模时应谨慎使用:
total_deaths、total_damage_usd_original、total_damage_usd_adjusted - 建议参考原始HDX数据集页面以获取发布方的方法说明和注意事项
引用
bibtex @dataset{hdx_africa_population_nigeria, title = {EM-DAT - Country Profiles, Nigeria}, author = {Centre for Research on the Epidemiology of Disasters}, year = {2026}, url = {https://data.humdata.org/dataset/emdat-country-profiles-nga}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }
搜集汇总
数据集介绍
构建方式
该数据集源自Centre for Research on the Epidemiology of Disasters发布的EM-DAT国家概况,经由人道主义数据交换平台(HDX)获取原始数据,并由Electric Sheep Africa团队进行机器学习友好化处理。原始数据通过CKAN API下载后,被转化为Parquet格式,列名统一为小写下划线命名法,缺失值标记被统一替换为NaN。基于解析成功率超过85%的阈值,五列字符串数据被转换为数值或日期时间类型。最终,数据集以固定随机种子42进行80/20划分,生成训练集与测试集,并保存为Snappy压缩的Parquet文件,确保了数据的高效存储与复现性。
特点
本数据集聚焦尼日利亚的自然灾害影响,以国家层面的聚合数据为观测单元,涵盖2000年至2025年间洪水、风暴等灾害事件。共计44行样本、15个变量,其中包含7个数值型与8个类别型特征,如年份、灾害类型、受灾人数、死亡人数及经济损失等。数据集特色在于整合了原始与经通胀调整的经济损失数据,并纳入消费者价格指数,便于进行跨时期对比分析。其时间跨度长、变量维度丰富,为灾害流行病学与人口影响研究提供了难得的数据基础,但需注意部分关键字段存在较高缺失率。
使用方法
用户可通过HuggingFace Datasets库便捷加载该数据,使用`load_dataset("electricsheepafrica/africa-population-nigeria")`命令即可获取训练集与测试集,并支持转换为Pandas DataFrame进行后续分析。数据适用于表格分类或回归任务,例如预测灾害事件数量、受灾人数或经济损失规模。由于存在缺失值,建议在使用前对`total_deaths`、`total_damage_usd_original`等字段进行插补或剔除。此外,研究者应参考原始HDX页面中的方法论说明,以理解数据收集的局限性与偏差来源,从而做出合理的模型设计与结果解读。
背景与挑战
背景概述
非洲大陆频繁遭受自然灾害侵袭,尤其在尼日利亚等人口稠密地区,洪水与风暴等灾害对人民生命财产安全构成持续威胁。由灾害流行病学研究中心(CRED)维护的EM-DAT数据库是全球范围内最权威的自然灾害历史记录之一,旨在为防灾减灾研究提供系统化的数据支持。africa-population-nigeria数据集于2026年由Electric Sheep Africa团队基于CRED发布的尼日利亚国家概况数据构建,整理为面向机器学习的高质量Parquet格式。该数据集汇聚了2000年至2025年间尼日利亚发生的自然灾害事件,详细记录了受灾人数、死亡人数及经济损失等关键指标,为深入研究灾害影响、构建预测模型及优化应急响应策略奠定了重要基础,有力推动了非洲灾害管理与人口脆弱性分析的量化研究。
当前挑战
该数据集在构建与应用过程中面临多重挑战。在领域问题层面,尼日利亚自然灾害事件频发且类型多样,包括河流泛滥、一般性洪水与暴风雨等,如何从有限的历史样本中准确捕捉灾害发生模式与人口脆弱性之间的关系,是统计学与机器学习领域亟待突破的难点。在数据构建层面,原始EM-DAT数据存在显著缺失,经济损失原始值与调整值的缺失率分别高达65.9%和68.2%,死亡人数缺失率亦达22.7%;加之数据集仅有44条记录,样本量极小,极易导致模型过拟合。此外,自动化清洗流程无法完全校正原始报告中的定义不一致、统计口径偏差等问题,进一步增加了数据质量保障的复杂性。
常用场景
经典使用场景
在非洲灾害流行病学与人口脆弱性研究领域,该数据集常被用于构建基于历史灾害事件的国家级影响评估模型。研究人员利用其记录的年份、灾害类型、受灾人口及经济损失等结构化变量,通过回归分析或时序预测方法,揭示洪水、风暴等自然致灾因子对尼日利亚人口动态的冲击规律。其经典使用场景包括分析灾害发生频率与死亡人数的关联性,以及评估不同灾害子类型(如河流洪水与突发性洪水)在人口暴露度上的差异性,为区域灾害风险管理提供量化依据。
衍生相关工作
该数据集衍生出一系列聚焦非洲灾害韧性的经典工作,包括基于该数据训练的多变量线性模型以预测尼日利亚年度灾害经济损失;结合遥感夜间灯光指数(如VIIRS数据)构建的灾害恢复力时空图谱,揭示了三角洲地区洪水暴露度与经济受损率的异质性;以及利用时间序列分解法(如STL)分离灾害趋势与季节性波动,量化气候变化背景下极端水文事件对尼日利亚人口死亡率的影响。此外,其经ML-ready Parquet格式重构的特性,激发了多项将EM-DAT与其他非洲人口网格数据(如WorldPop)融合的研究,用于构建灾害-人口动态耦合模型,评估未来气候情景下的复合风险暴露路径。
数据集最近研究
最新研究方向
基于EM-DAT灾害流行病学数据库整理的非洲人口数据集,正推动尼日利亚自然灾害风险建模与人口脆弱性量化的前沿研究。该数据集整合了2000至2025年间洪水、风暴等水文气象灾害的伤亡、经济损失及受影响人口等关键指标,结合消费价格指数构建了时空多维度特征体系。当前研究热点聚焦于利用该数据训练预测模型,以解析西非地区灾害发生频率与人口暴露度的动态关联,为人道主义援助和灾后恢复策略提供数据驱动的决策支撑。在气候变化加剧极端天气事件的背景下,该数据集为评估尼日利亚次级行政区的复合灾害风险、优化应急资源分配奠定了机器学习的标准化基础。
以上内容由遇见数据集搜集并总结生成



