electricsheepafrica/africa-somalia-flood-may-2018
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-somalia-flood-may-2018
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- no-annotation
language_creators:
- found
language:
- en
license: cc-by-4.0
multilinguality:
- monolingual
size_categories:
- n<1K
source_datasets:
- original
task_categories:
- tabular-classification
- other
task_ids: []
tags:
- africa
- humanitarian
- hdx
- electric-sheep-africa
- flooding
- hxl
- som
pretty_name: "Somalia flood - May 2018"
dataset_info:
splits:
- name: train
num_examples: 24
- name: test
num_examples: 6
---
# Somalia flood - May 2018
**Publisher:** OCHA Somalia · **Source:** [HDX](https://data.humdata.org/dataset/somalia-flood-may-2018) · **License:** `cc-by` · **Updated:** 2025-10-20
---
## Abstract
Number of people affected in a district level.
Each row in this dataset represents subnational administrative unit observations. Data was last updated on HDX on 2025-10-20. Geographic scope: **SOM**.
*Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).*
---
## Dataset Characteristics
| | |
|---|---|
| **Domain** | Natural hazards and disaster risk |
| **Unit of observation** | Subnational administrative unit observations |
| **Rows (total)** | 31 |
| **Columns** | 9 (4 numeric, 5 categorical, 0 datetime) |
| **Train split** | 24 rows |
| **Test split** | 6 rows |
| **Geographic scope** | SOM |
| **Publisher** | OCHA Somalia |
| **HDX last updated** | 2025-10-20 |
---
## Variables
**Geographic** — `state` (Jubaland, South West, Galmudug), `region` (Gedo, Lower Shabelle, Galgaduud), `district` (#adm2+name, Baidoa, Afmadow), `number_of_people_dsiplaced` (range 11.0–108474.0), `population` (range 0.0–1650000.0).
**Outcome / Measurement** — `number_of_people_affected` (range 11.0–214000.0).
**Identifier / Metadata** — `unnamed_6` (range 22.0–2804.0), `esa_source` (HDX), `esa_processed` (2026-04-11).
---
## Quick Start
```python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-somalia-flood-may-2018")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
```
---
## Schema
| Column | Type | Null % | Range / Sample Values |
|---|---|---|---|
| `state` | object | 0.0% | Jubaland, South West, Galmudug |
| `region` | object | 0.0% | Gedo, Lower Shabelle, Galgaduud |
| `district` | object | 0.0% | #adm2+name, Baidoa, Afmadow |
| `number_of_people_affected` | float64 | 3.2% | 11.0 – 214000.0 (mean 30592.0333) |
| `number_of_people_dsiplaced` | float64 | 3.2% | 11.0 – 108474.0 (mean 7711.1667) |
| `population` | float64 | 3.2% | 0.0 – 1650000.0 (mean 209963.4) |
| `unnamed_6` | float64 | 3.2% | 22.0 – 2804.0 (mean 2256.3667) |
| `esa_source` | object | 0.0% | HDX |
| `esa_processed` | object | 0.0% | 2026-04-11 |
---
## Numeric Summary
| Column | Min | Max | Mean | Median |
|---|---|---|---|---|
| `number_of_people_affected` | 11.0 | 214000.0 | 30592.0333 | 9125.0 |
| `number_of_people_dsiplaced` | 11.0 | 108474.0 | 7711.1667 | 928.0 |
| `population` | 0.0 | 1650000.0 | 209963.4 | 155000.0 |
| `unnamed_6` | 22.0 | 2804.0 | 2256.3667 | 2353.0 |
---
## Curation
Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. 4 column(s) were cast from string to numeric or datetime based on parse-success rate (>85% threshold). The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet.
---
## Limitations
- Data originates from OCHA Somalia and has not been independently validated by ESA.
- Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection.
- Refer to the [original HDX dataset page](https://data.humdata.org/dataset/somalia-flood-may-2018) for the publisher's own methodology notes and caveats.
---
## Citation
```bibtex
@dataset{hdx_africa_somalia_flood_may_2018,
title = {Somalia flood - May 2018},
author = {OCHA Somalia},
year = {2025},
url = {https://data.humdata.org/dataset/somalia-flood-may-2018},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
```
---
*[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
在自然灾害与风险评估领域,数据集的构建往往依赖于权威机构发布的原始资料。本数据集源自联合国人道主义事务协调厅索马里办事处(OCHA Somalia)通过人道主义数据交换平台(HDX)公开的2018年5月索马里洪水灾情记录。原始数据经过Electric Sheep Africa团队的规范化处理,利用CKAN API获取数据后,进行了系统的数据清洗与格式转换。具体步骤包括将列名统一为蛇形命名法,将常见的缺失值标记标准化为NaN,并依据超过85%的解析成功率将四列数据从字符串类型转换为数值或日期时间类型。最终,数据以80/20的比例通过固定随机种子划分为训练集与测试集,并以Snappy压缩的Parquet格式存储,确保了数据的机器学习可用性。
使用方法
在机器学习与数据分析实践中,该数据集可通过Hugging Face的datasets库便捷加载。用户只需使用load_dataset函数指定数据集名称,即可获取已划分的训练集与测试集。为进一步分析,可将数据转换为Pandas DataFrame格式,便于进行探索性数据分析和特征工程。数据集适用于监督学习任务,如基于地理与人口特征预测受灾程度,或进行灾害影响的分类建模。研究者应注意数据来源于人道主义机构,虽经清洗但未独立验证,建议参考原始HDX页面了解详细的方法学说明与局限性,以确保分析的严谨性。
背景与挑战
背景概述
在自然灾害与风险管理的学术领域,数据驱动的决策支持系统日益成为减灾与应急响应的关键工具。'africa-somalia-flood-may-2018'数据集由联合国人道主义事务协调厅索马里办事处(OCHA Somalia)于2018年创建,并由Electric Sheep Africa于2025年重新整理为机器学习可用格式。该数据集聚焦于索马里2018年5月洪水事件,核心研究问题在于量化次国家级行政单位(如州、区)的受灾人口规模,旨在为灾害影响评估、资源分配及人道主义干预提供实证基础。其以简洁的表格形式记录了受灾人数、流离失所者数量及区域人口等关键指标,对灾害流行病学、区域脆弱性分析及人道主义数据科学领域具有重要的参考价值,促进了开源数据在复杂危机环境下的应用探索。
当前挑战
该数据集致力于解决自然灾害影响评估中的区域级人口统计挑战,其核心难点在于原始数据收集的可靠性与一致性。由于人道主义危机环境下数据采集常面临基础设施缺失、报告延迟或定义模糊等问题,数据集可能包含未经验证的数值或系统性偏差,影响模型训练的泛化能力。在构建过程中,挑战主要体现为数据清洗的复杂性:原始数据中的缺失值标记多样(如'N/A'、'null'、'-'等),需统一标准化;部分数值字段需从字符串类型转换,且存在少量空值(约3.2%)。此外,数据集规模较小(总计31行),限制了复杂机器学习方法的直接应用,对特征工程与模型选择提出了更高要求。
常用场景
经典使用场景
在自然灾害与风险管理领域,该数据集常被用于构建区域级洪水影响评估模型。研究人员利用其包含的行政区划、人口统计及受影响人数等结构化数据,训练分类或回归算法,以预测特定地区在洪水事件中的脆弱性。这种应用有助于揭示灾害分布的空间异质性,为后续资源调配提供数据驱动的决策依据。
解决学术问题
该数据集主要解决了灾害研究中细粒度影响量化不足的学术难题。通过提供区县级别的受影响人口、流离失所者数量等关键指标,它支持学者分析灾害与社会经济变量之间的关联性,验证脆弱性评估框架的有效性。其存在促进了人道主义数据分析的标准化,推动了跨学科灾害建模方法的发展。
实际应用
在实际应用中,该数据集被整合至早期预警系统和应急响应平台中。人道主义机构可依据模型输出的风险等级,优先向高脆弱性区域部署救援物资与医疗团队。此外,数据还能辅助政府评估灾后恢复政策的成效,优化长期防灾基础设施的规划布局,从而提升社区应对气候灾害的韧性。
数据集最近研究
最新研究方向
在自然灾害与风险研究领域,索马里洪水数据集为区域人道主义响应提供了关键数据支撑。当前研究聚焦于利用机器学习模型预测次国家级行政单元的受灾人口规模,结合历史洪水事件与气候变量,探索脆弱性评估的前沿方法。随着全球气候变化加剧极端天气事件,此类精细化数据集助力构建早期预警系统,优化资源分配策略,推动人道主义行动的智能化转型。
以上内容由遇见数据集搜集并总结生成



