electricsheepafrica/africa-south-sudan-access-incidents-jan-dec-2024
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-south-sudan-access-incidents-jan-dec-2024
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- no-annotation
language_creators:
- found
language:
- en
license: cc-by-4.0
multilinguality:
- monolingual
size_categories:
- n<1K
source_datasets:
- original
task_categories:
- other
task_ids: []
tags:
- africa
- humanitarian
- hdx
- electric-sheep-africa
- humanitarian-access
- ssd
pretty_name: "South Sudan: Access Incidents"
dataset_info:
splits:
- name: train
num_examples: 61
- name: test
num_examples: 15
---
# South Sudan: Access Incidents
**Publisher:** OCHA South Sudan · **Source:** [HDX](https://data.humdata.org/dataset/south-sudan-access-incidents-jan-dec_2024) · **License:** `cc-by` · **Updated:** 2025-04-28
---
## Abstract
South Sudan Access Incidents Jan-Dec_2024
Each row in this dataset represents subnational administrative unit observations. Data was last updated on HDX on 2025-04-28. Geographic scope: **SSD**.
*Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).*
---
## Dataset Characteristics
| | |
|---|---|
| **Domain** | Humanitarian and development data |
| **Unit of observation** | Subnational administrative unit observations |
| **Rows (total)** | 77 |
| **Columns** | 7 (1 numeric, 6 categorical, 0 datetime) |
| **Train split** | 61 rows |
| **Test split** | 15 rows |
| **Geographic scope** | SSD |
| **Publisher** | OCHA South Sudan |
| **HDX last updated** | 2025-04-28 |
---
## Variables
**Geographic** — `admin1` (Unity, Upper Nile, Jonglei), `admin1_code` (SS06, SS07, SS03), `admin2` (Abyei Administrative Area, Manyo, Maban), `admin2_code` (SS0001, SS0708, SS0705).
**Identifier / Metadata** — `incident` (range 0.0–453.0), `esa_source` (HDX), `esa_processed` (2026-04-10).
---
## Quick Start
```python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-south-sudan-access-incidents-jan-dec-2024")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
```
---
## Schema
| Column | Type | Null % | Range / Sample Values |
|---|---|---|---|
| `admin1` | object | 1.3% | Unity, Upper Nile, Jonglei |
| `admin1_code` | object | 2.6% | SS06, SS07, SS03 |
| `admin2` | object | 2.6% | Abyei Administrative Area, Manyo, Maban |
| `admin2_code` | object | 2.6% | SS0001, SS0708, SS0705 |
| `incident` | float64 | 1.3% | 0.0 – 453.0 (mean 11.9211) |
| `esa_source` | object | 0.0% | HDX |
| `esa_processed` | object | 0.0% | 2026-04-10 |
---
## Numeric Summary
| Column | Min | Max | Mean | Median |
|---|---|---|---|---|
| `incident` | 0.0 | 453.0 | 11.9211 | 3.0 |
---
## Curation
Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet.
---
## Limitations
- Data originates from OCHA South Sudan and has not been independently validated by ESA.
- Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection.
- Refer to the [original HDX dataset page](https://data.humdata.org/dataset/south-sudan-access-incidents-jan-dec_2024) for the publisher's own methodology notes and caveats.
---
## Citation
```bibtex
@dataset{hdx_africa_south_sudan_access_incidents_jan_dec_2024,
title = {South Sudan: Access Incidents},
author = {OCHA South Sudan},
year = {2025},
url = {https://data.humdata.org/dataset/south-sudan-access-incidents-jan-dec_2024},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
```
---
*[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
南苏丹通行事件数据集(South Sudan: Access Incidents)旨在记录2024年该国各次国家级行政单元的人道主义通行受阻事件,由联合国人道事务协调厅(OCHA)南苏丹办事处发布,并经Electric Sheep Africa团队从HDX平台通过CKAN API获取原始数据后,进行系统化清洗与重构。在数据处理过程中,列名被统一转化为小写下划线命名风格,常见缺失值标记如“N/A”、“null”等被统一替换为NaN。最终数据集被以固定随机种子42划分为80%训练集与20%测试集,并以Snappy压缩格式存储为Parquet文件,为机器学习应用奠定结构化基础。
特点
该数据集包含77条观测记录,涵盖7个变量,其中1个为数值型,其余为类别型,无时间戳字段。地理范围聚焦南苏丹,涉及Unity、Upper Nile、Jonglei等行政区,而通行事件数量(incident)在0至453之间波动,均值约11.92,中位数仅为3,反映出事件分布高度不均。数据源自OCHA官方发布,但未经独立验证,原始采集中的误报、定义差异或采样偏差未被自动清洗所修正,使用者需关注数据的内在局限性。
使用方法
该数据集可通过Hugging Face的datasets库直接加载,示例代码简洁高效:调用load_dataset函数即可获得训练集与测试集,并支持转换为Pandas DataFrame以便后续分析。典型应用场景包括人道主义通行安全建模、事件时空分布规律挖掘,以及南苏丹次国家级行政区的风险评估。建议使用者结合原始HDX页面的方法说明,以更全面地理解数据含义并规避因自动化清洗未解决的原始缺陷所带来的偏差。
背景与挑战
背景概述
在人道主义救援领域,准确评估和监控人道主义准入障碍是制定有效干预策略的关键。由联合国人道主义事务协调厅南苏丹办公室(OCHA South Sudan)创建并发布于人道数据交换平台(HDX)的南苏丹准入事件数据集(South Sudan: Access Incidents),旨在系统记录2024年1月至12月期间南苏丹各次国家级行政单位的人道主义准入事件。该数据集由Electric Sheep Africa于2025年4月28日整理为机器学习就绪格式,包含77条观测记录,覆盖Unity、Upper Nile等冲突频发地区的准入事件频次。作为首个针对南苏丹人道主义准入事件的结构化数据集,它为评估冲突环境下人道主义行动的可达性、优化资源分配以及推动基于数据的政策制定提供了宝贵的基准资源。
当前挑战
该数据集所解决的领域核心挑战在于,南苏丹长期冲突导致的人道主义准入障碍缺乏系统化、量化的监测数据,传统依赖定性报告的方式难以支持大规模分析。构建过程中面临多重困难:原始数据来源单一,依赖OCHA南苏丹的有限报告,可能存在报告偏差和遗漏;数据清洗虽将缺失值统一为NaN,但无法修正原始收集中的误报或定义不一致问题;数据集规模仅77条,样本量较小,限制了模型泛化能力;地理范围仅覆盖特定行政区域,可能无法完整代表全国情况。此外,自动清洗流程无法独立验证数据的准确性,需依赖原始发布者的方法说明,这增加了数据使用的潜在不确定性。
常用场景
经典使用场景
在南苏丹的人道主义危机研究领域,该数据集记录了2024年1月至12月期间各次国家级行政单元发生的准入事件,为分析冲突环境下人道主义救援的阻碍因素提供了量化基础。研究人员可借此探索事件数量与行政区域之间的空间分布规律,构建预测模型以识别高风险地区,从而优化救援资源的部署策略。其简洁的变量结构,尤其是‘incident’数值列,便于快速集成至时间序列分析或地理统计模型中,成为评估南苏丹人道主义准入动态变化的关键数据源。
实际应用
在实际应用中,该数据集为人道主义组织如OCHA提供了精准的行动规划依据。通过分析县级行政单位的准入事件分布,救援机构可以优先介入事件高发区域,规避风险路线,提升物资运输效率。同时,该数据还支持实时监控系统的构建,辅助决策者快速响应突发危机,调整安全协议。例如,结合其他地理信息数据,可生成高分辨率的风险地图,为前线团队的安全评估及跨界协调提供可靠参考。
衍生相关工作
基于此数据集,学术界与实务界已衍生出多项创新性研究。一方面,它被嵌入至人道主义数据标准化工作中,推动如HDX平台与机器学习管线的无缝衔接;另一方面,其精细化的行政层级划分催生了关于次区域准入模式比较的论文,探讨不同治理能力对事件频率的影响。此外,Electric Sheep Africa的清理与拆分流程为类似冲突地区数据集的自动化处理树立了范例,启发了针对非洲冲突热点的集成学习框架开发。
以上内容由遇见数据集搜集并总结生成



