africa-population-somalia
收藏Hugging Face2026-04-29 更新2026-04-30 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-population-somalia
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为EM-DAT - 国家概况,索马里,由流行病学灾难研究中心发布,数据来源于人道主义数据交换平台(HDX)。数据集聚焦于索马里自然危害相关事件的聚合数据,每条记录对应特定年份、国家和灾害子类型的组合,报告了灾害数量、受影响总人数、死亡总数和经济损失等指标。数据集包含49条记录,分为39条训练数据和9条测试数据,涵盖2000年至2025年的数据。数据集包含13个字段,包括地理信息(如年份、国家、ISO代码)、灾害类型(如洪水、干旱、风暴)、结果测量(如总事件数、受影响人数、死亡人数)以及元数据等。数据集适用于表格分类任务,特别是在人口统计和灾害影响分析领域。数据经过Electric Sheep Africa整理,转换为Parquet格式,并进行了标准化和缺失值处理。需要注意的是,部分字段(如total_deaths)缺失值较多,使用时需谨慎。
This dataset is named "EM-DAT - Country Profile, Somalia", published by the Centre for Research on the Epidemiology of Disasters (CRED), with data sourced from the Humanitarian Data Exchange (HDX) platform. This dataset focuses on aggregated data of natural hazard-related events in Somalia. Each record corresponds to a combination of a specific year, country, and disaster subtype, reporting metrics such as the number of disasters, total number of affected people, total deaths, and economic losses. The dataset contains 49 records in total, split into 39 training samples and 9 test samples, covering data from 2000 to 2025. The dataset consists of 13 fields, including geographic information (e.g., year, country, ISO code), disaster types (e.g., flood, drought, storm), outcome metrics (e.g., total number of events, affected population, number of deaths), and metadata. This dataset is suitable for tabular classification tasks, particularly in the fields of demographic statistics and disaster impact analysis. The data was curated by Electric Sheep Africa, converted to Parquet format, and underwent standardization and missing value handling. It should be noted that some fields (e.g., total_deaths) have a high proportion of missing values, so caution is required when using this dataset.
创建时间:
2026-04-26
原始信息汇总
数据集概述:EM-DAT - Country Profiles, Somalia
基本信息
- 数据集名称:EM-DAT - Country Profiles, Somalia
- 发布方:Centre for Research on the Epidemiology of Disasters
- 数据来源:HDX
- 许可证:
hdx-other - 最近更新:2026-04-24
- 地理范围:索马里(SOM)
- 语言:英语
- 标签:africa, humanitarian, hdx, electric-sheep-africa, affected-population, economics, fatalities, hxl, natural-disasters, som
数据集特征
| 属性 | 说明 |
|---|---|
| 领域 | 人口统计与人口 |
| 观察单位 | 国家层面的汇总数据 |
| 总行数 | 49 |
| 列数 | 13(5个数值型,8个分类型,0个日期时间型) |
| 训练集 | 39行 |
| 测试集 | 9行 |
| 地理范围 | SOM |
变量说明
地理变量
year:年份,范围 2000.0–2025.0country:国家名称,索马里(#country +name)iso:国家代码,SOM(#country +code)disaster_type:灾害类型(Flood, Drought, Storm)disaster_subtype:灾害子类型(Riverine flood, Drought, Flash flood)
结果/度量变量
total_events:灾害事件总数,范围 1.0–3.0total_affected:受影响总人数,范围 300.0–7100000.0total_deaths:总死亡人数,范围 1.0–20000.0
标识符/元数据变量
esa_source:数据来源,HDXesa_processed:处理日期,2026-04-29
其他变量
disaster_group:灾害组别(Natural, #cause +group)disaster_subroup:灾害子组(Hydrological, Climatological, Meteorological)cpi:消费者价格指数,范围 54.8952–100.0
数据摘要
| 列名 | 类型 | 缺失率 | 范围/样本值 |
|---|---|---|---|
year |
float64 | 2.0% | 2000.0 – 2025.0(均值 2013.0833) |
country |
object | 0.0% | Somalia |
iso |
object | 0.0% | SOM |
disaster_group |
object | 0.0% | Natural |
disaster_subroup |
object | 0.0% | Hydrological, Climatological, Meteorological |
disaster_type |
object | 0.0% | Flood, Drought, Storm |
disaster_subtype |
object | 0.0% | Riverine flood, Drought, Flash flood |
total_events |
float64 | 2.0% | 1.0 – 3.0(均值 1.25) |
total_affected |
float64 | 8.2% | 300.0 – 7100000.0(均值 960969.2) |
total_deaths |
float64 | 42.9% | 1.0 – 20000.0(均值 750.5357) |
cpi |
float64 | 8.2% | 54.8952 – 100.0(均值 73.4451) |
esa_source |
object | 0.0% | HDX |
esa_processed |
object | 0.0% | 2026-04-29 |
数值型字段统计
| 列名 | 最小值 | 最大值 | 均值 | 中位数 |
|---|---|---|---|---|
year |
2000.0 | 2025.0 | 2013.0833 | 2013.5 |
total_events |
1.0 | 3.0 | 1.25 | 1.0 |
total_affected |
300.0 | 7100000.0 | 960969.2 | 153500.0 |
total_deaths |
1.0 | 20000.0 | 750.5357 | 13.0 |
cpi |
54.8952 | 100.0 | 73.4451 | 74.2637 |
数据清洗与处理说明
- 原始数据从HDX通过CKAN API下载并转换为Parquet格式
- 列名统一为小写蛇形命名法
- 常见缺失值标记统一转换为NaN
- 移除了缺失值超过80%的2列:
total_damage_usd_original,total_damage_usd_adjusted - 4列基于解析成功率(>85%)从字符串转换为数值或日期时间类型
- 数据集按80/20比例随机拆分为训练集和测试集(随机种子42),保存为Snappy压缩Parquet格式
局限性
- 数据来源于Centre for Research on the Epidemiology of Disasters,未经Electric Sheep Africa独立验证
- 自动清洗无法纠正原始数据中的误报、定义不一致或抽样偏差
total_deaths列缺失率超过20%,在建模中应谨慎使用
引用格式
bibtex @dataset{hdx_africa_population_somalia, title = {EM-DAT - Country Profiles, Somalia}, author = {Centre for Research on the Epidemiology of Disasters}, year = {2026}, url = {https://data.humdata.org/dataset/emdat-country-profiles-som}, note = {Repackaged for machine learning by Electric Sheep Africa} }
搜集汇总
数据集介绍

构建方式
该数据集源自灾害流行病学研究中心(CRED)维护的EM-DAT数据库,经人道主义数据交换平台(HDX)获取,并由Electric Sheep Africa团队进行面向机器学习格式的二次处理。原始数据通过CKAN API下载后,经过列名标准化、缺失值统一替换为NaN、高缺失率列剔除(如原始及调整后的经济损失列)以及数据类型转换等清洗步骤,最终以Snappy压缩的Parquet格式存储。数据集按8:2比例随机划分为训练集与测试集,固定随机种子以确保可复现性。
特点
本数据集聚焦于索马里地区2000年至2025年间的自然灾害事件统计,包含13个字段,涵盖年份、国家编码、灾害类型与亚类型、总事件数、受影响人数、死亡人数及消费者价格指数等核心变量。数据单元为国家层面汇总,共49条记录,其中训练集39条,测试集9条。其显著特点在于整合了社会经济指标(如CPI)与灾害影响数据,为分析灾害与经济发展的关联提供了结构化基础,同时标注了来源与处理日期,便于追溯数据生命周期。
使用方法
用户可通过Hugging Face Datasets库直接加载该数据集,调用`load_dataset("electricsheepafrica/africa-population-somalia")`即可获取训练与测试分割。加载后,建议将数据转换为pandas DataFrame以便进行探索性分析和特征工程。考虑到部分字段存在缺失值(如`total_deaths`缺失率达42.9%),在使用前需采用恰当的插补或过滤策略。该数据集适用于分类或回归任务,例如预测特定灾害类型下的受影响人数,或分析时间序列上灾害频率与经济指标的变化趋势。
背景与挑战
背景概述
非洲之角地区长期承受着自然灾害与复杂人道主义危机的双重压力,索马里作为该区域脆弱性最为突出的国家之一,其灾害影响评估与应对决策亟需系统化、结构化的数据支撑。由灾难流行病学研究中心(CRED)于2026年发布、经Electric Sheep Africa机构重新整理并转化为机器学习就绪格式的索马里国家灾害数据集,依托EM-DAT全球灾害数据库,系统整合了该国2000年至2025年间因洪水、干旱、风暴等自然灾害所导致的事件频次、受灾人口、死亡人数及经济损失等关键指标。该数据集以国家层面为观测单元,通过标准化清洗流程与八二分法划分为训练集与测试集,为灾害流行病学建模、人道主义响应策略优化及非洲地区可持续发展目标监测提供了宝贵的基础数据资源,在灾害风险分析与减灾政策制定领域展现出重要的学术与应用价值。
当前挑战
该数据集所面临的挑战首先源自其核心研究问题本身:如何准确量化自然灾害对人道主义安全的影响。在索马里这一高度动态且数据基础设施薄弱的区域,灾害登记与伤亡统计常受限于冲突局势、政府治理能力不足与信息获取渠道有限,导致原始数据存在系统性偏差与大量缺失值,例如数据集中死亡人数一列的缺失率高达42.9%。构建过程中亦遭遇多重障碍,包括原始数据源来自CRED且未经独立验证,自动化清洗流程虽统一了缺失值标记并删除了缺失率超过80%的字段,但无法纠正源数据中的报告误差与定义不一致问题,同时原始数据中存在经济损害等关键变量因高缺失率被舍弃,进一步压缩了可用于建模的特征空间,削弱了数据集在细粒度灾害影响归因与预测任务中的性能上限。
常用场景
经典使用场景
非洲大陆长期面临自然灾害的严峻挑战,而索马里作为非洲之角的重要国家,其灾害数据对于理解区域脆弱性具有独特价值。africa-population-somalia数据集汇聚了EM-DAT数据库中索马里历年自然灾害的宏观统计信息,每一条记录都对应着特定年份与灾害子类的聚合数据,涵盖洪涝、干旱、风暴等事件的发生频次、受影响人口规模、死亡人数以及经济损失等核心指标。该数据集最经典的使用场景在于构建灾害影响的时间序列模型,研究者可以利用年份、灾害类型等特征,预测自然灾害对索马里人口及经济造成的冲击程度,从而揭示该地区灾害动态演变的规律。
衍生相关工作
该数据集的发布催生了一系列衍生研究工作,尤其在机器学习与灾害科学交叉领域产生了重要影响。Electric Sheep Africa团队将原始HDX数据转化为机器就绪的Parquet格式,并划分为训练集与测试集,这为后续研究提供了可直接使用的基准数据。相关经典工作包括:基于随机森林与梯度提升模型预测不同灾害子类型下的死亡人数区间;利用时间序列分解方法提取索马里灾害频率的趋势与季节性成分;以及结合卫星遥感数据与人口空间分布网格,构建高分辨率灾害影响评估模型。这些工作不仅推动了非洲灾害数据的开放科学运动,也为其他低收入国家构建类似标准化数据集提供了方法论参照。
数据集最近研究
最新研究方向
基于索马里自然灾害事件EM-DAT国家概况数据集,前沿研究方向聚焦于利用小样本分类与回归模型对干旱、洪水和风暴等灾害的发生频次、受影响人口及死亡人数进行年度聚合分析,并结合消费者价格指数等社会经济指标评估灾害的经济脆弱性。近期与非洲之角极端气候事件频发紧密关联,该数据集支撑人道主义援助的快速风险评估和资源分配决策,为构建低成本、高可解释性的灾害预警系统提供了关键基准,其在低频灾害建模中的适配性验证对提升脆弱国家抗灾韧性具有深远意义。
以上内容由遇见数据集搜集并总结生成



