electricsheepafrica/africa-zambia-mpox-subnational-cases
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-zambia-mpox-subnational-cases
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- no-annotation
language_creators:
- found
language:
- en
license: cc-by-4.0
multilinguality:
- monolingual
size_categories:
- n<1K
source_datasets:
- original
task_categories:
- tabular-classification
task_ids: []
tags:
- africa
- humanitarian
- hdx
- electric-sheep-africa
- disease
- eastern-africa
- epidemics-outbreaks
- health
- hxl
- zmb
pretty_name: "Zambia - Mpox Subnational Cases"
dataset_info:
splits:
- name: train
num_examples: 19
- name: test
num_examples: 4
---
# Zambia - Mpox Subnational Cases
**Publisher:** HERA - Humanitarian Emergency Response Africa · **Source:** [HDX](https://data.humdata.org/dataset/zambia-mpox-subnational-cases) · **License:** `cc-by` · **Updated:** 2025-04-15
---
## Abstract
Subnational 2024 Mpox data in Zambia - Infected (new cases, gender), Suspected cases, Deaths and Recoveries.
Each row in this dataset represents tabular records. Data was last updated on HDX on 2025-04-15. Geographic scope: **ZMB**.
*Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).*
---
## Dataset Characteristics
| | |
|---|---|
| **Domain** | Public health |
| **Unit of observation** | Tabular records |
| **Rows (total)** | 24 |
| **Columns** | 2 (0 numeric, 2 categorical, 0 datetime) |
| **Train split** | 19 rows |
| **Test split** | 4 rows |
| **Geographic scope** | ZMB |
| **Publisher** | HERA - Humanitarian Emergency Response Africa |
| **HDX last updated** | 2025-04-15 |
---
## Variables
**Identifier / Metadata** — `esa_source` (HDX), `esa_processed` (2026-04-11).
---
## Quick Start
```python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-zambia-mpox-subnational-cases")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
```
---
## Schema
| Column | Type | Null % | Range / Sample Values |
|---|---|---|---|
| `esa_source` | object | 0.0% | HDX |
| `esa_processed` | object | 0.0% | 2026-04-11 |
---
## Numeric Summary
| Column | Min | Max | Mean | Median |
|---|---|---|---|---|
_No numeric columns._
---
## Curation
Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. 3 column(s) with >80% missing values were removed: `unnamed_0`, `unnamed_1`, `unnamed_2`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet.
---
## Limitations
- Data originates from HERA - Humanitarian Emergency Response Africa and has not been independently validated by ESA.
- Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection.
- Refer to the [original HDX dataset page](https://data.humdata.org/dataset/zambia-mpox-subnational-cases) for the publisher's own methodology notes and caveats.
---
## Citation
```bibtex
@dataset{hdx_africa_zambia_mpox_subnational_cases,
title = {Zambia - Mpox Subnational Cases},
author = {HERA - Humanitarian Emergency Response Africa},
year = {2025},
url = {https://data.humdata.org/dataset/zambia-mpox-subnational-cases},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
```
---
*[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
在公共卫生监测领域,数据质量直接影响流行病学分析的准确性。该数据集由人道主义应急响应非洲组织发布,原始数据采集自赞比亚2024年猴痘疫情的次国家级病例报告。数据经过Electric Sheep Africa团队的系统化处理:通过CKAN API从人道主义数据交换平台获取原始资料,统一缺失值标记为NaN格式,并剔除了缺失率超过80%的无名变量列。最终采用固定随机种子将24条记录按80:20比例划分为训练集与测试集,并以Snappy压缩的Parquet格式存储,确保了数据的机器学习可用性。
特点
作为聚焦非洲传染病监测的专项数据集,其核心价值体现在空间细粒度与结构化表征上。数据集涵盖赞比亚境内猴痘感染的次区域统计,包含新增病例、疑似病例、死亡与康复等关键流行病学指标,每条记录代表独立的表格化观测单元。尽管仅包含2个分类变量和24条样本,但其严格遵循国际人道主义数据标准,所有字段均经过蛇形命名规范处理,且完整保留了原始数据的时间戳与来源标识。这种精炼的数据结构特别适合用于探索性分析与轻量级预测建模。
使用方法
在应用层面,该数据集为公共卫生研究者提供了即用的分析基础。用户可通过Hugging Face的datasets库直接加载,调用load_dataset函数即可获取已分区的训练集与测试集。数据以Pandas DataFrame格式呈现后,可快速进行描述性统计或可视化探索。鉴于其纯粹的表格特性,研究者可将其用于分类任务基线测试,或结合时空特征构建传染病传播预测模型。需要注意的是,所有分析应参考原始发布方的方法学说明,并充分考虑数据采集过程中可能存在的报告偏差与定义不一致等局限性。
背景与挑战
背景概述
在公共卫生监测领域,尤其是针对新兴传染病的应急响应,及时、细粒度的数据对于疫情态势评估与防控策略制定至关重要。'africa-zambia-mpox-subnational-cases'数据集由人道主义应急响应非洲组织(HERA)于2025年发布,并由Electric Sheep Africa机构进行机器学习友好型格式化处理。该数据集聚焦于2024年赞比亚境内猴痘疫情的亚国家级病例数据,核心研究问题在于通过结构化记录追踪感染、疑似、死亡及康复等关键流行病学指标,旨在为区域性疾病传播动态分析与资源调配提供实证基础。其发布不仅丰富了非洲地区传染病监测的开放数据资源,也为应用机器学习模型进行疫情预测与干预效果评估提供了特定场景下的基准数据。
当前挑战
该数据集旨在解决的领域挑战是猴痘等传染病在资源有限地区的亚国家级精准监测与态势感知问题,其核心难点在于如何从碎片化、非标准化的原始报告中提取可靠且可比的流行病学指标,以支持实时风险评估。在构建过程中,数据集面临多重挑战:原始数据存在大量缺失值与非标准标记,需进行复杂的清洗与统一;数据规模极小(总计24行),对机器学习模型的训练与泛化能力构成显著限制;此外,数据依赖于单一发布机构,可能存在报告偏差、定义不一致或未经验证的数值,自动化处理流程难以纠正这些底层收集阶段引入的系统性误差。
常用场景
经典使用场景
在公共卫生监测领域,该数据集为研究者提供了赞比亚2024年猴痘疫情的次国家级病例数据,涵盖感染、疑似、死亡和康复等关键指标。经典使用场景聚焦于利用这些结构化表格记录,构建机器学习模型以预测疫情的空间传播趋势或评估干预措施的效果。通过将数据划分为训练集和测试集,研究人员能够系统性地验证模型在有限样本下的泛化能力,从而支持数据驱动的流行病学分析。
实际应用
在实际应用中,该数据集被整合到人道主义响应和公共卫生管理系统中,辅助赞比亚及周边地区的卫生机构进行疫情风险评估和资源分配。例如,基于病例数据的分析可指导疫苗接种策略的优先区域设定,或优化医疗物资的物流分发。此外,数据通过HDX等开放平台共享,增强了全球卫生组织对非洲疫情动态的实时监控能力,提升了应急响应的时效性与精准性。
衍生相关工作
围绕该数据集衍生的经典工作主要包括利用机器学习方法进行传染病预测模型的开发,例如结合时空特征构建猴痘传播风险图谱。相关研究常拓展到跨区域疫情比较分析,探索社会经济因素与疾病暴发的关联性。同时,数据预处理和标准化流程也为其他非洲公共卫生数据集的处理提供了参考模板,推动了类似数据基础设施的构建,如Electric Sheep Africa所倡导的机器学习就绪格式的推广。
以上内容由遇见数据集搜集并总结生成



