electricsheepafrica/africa-ghana-coronavirus-covid-19-subnational-cases
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-ghana-coronavirus-covid-19-subnational-cases
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- no-annotation
language_creators:
- found
language:
- en
license: cc-by-4.0
multilinguality:
- monolingual
size_categories:
- 1K<n<10K
source_datasets:
- original
task_categories:
- tabular-classification
task_ids: []
tags:
- africa
- humanitarian
- hdx
- electric-sheep-africa
- covid-19
- disease
- gha
pretty_name: "Ghana: Coronavirus (COVID-19) Subnational Cases"
dataset_info:
splits:
- name: train
num_examples: 2577
- name: test
num_examples: 644
---
# Ghana: Coronavirus (COVID-19) Subnational Cases
**Publisher:** Safeture · **Source:** [HDX](https://data.humdata.org/dataset/ghana-coronavirus-covid-19-subnational-cases) · **License:** `cc-by` · **Updated:** 2025-08-26
---
## Abstract
Number of COVID-19 confirmed cases by region and date
Each row in this dataset represents country-level aggregates. Temporal coverage is indicated by the `date` column(s). Geographic scope: **GHA**.
*Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).*
---
## Dataset Characteristics
| | |
|---|---|
| **Domain** | Epidemiology and disease surveillance |
| **Unit of observation** | Country-level aggregates |
| **Rows (total)** | 3,222 |
| **Columns** | 8 (2 numeric, 5 categorical, 1 datetime) |
| **Train split** | 2,577 rows |
| **Test split** | 644 rows |
| **Geographic scope** | GHA |
| **Publisher** | Safeture |
| **HDX last updated** | 2025-08-26 |
---
## Variables
**Geographic** — `iso3166_2` (GH-AA, GH-AH, GH-EP), `iso3166_1` (GH), `cumulative_cases` (range 1.0–95682.0).
**Temporal** — `date`.
**Outcome / Measurement** — `cases` (range -1288.0–2546.0).
**Identifier / Metadata** — `name` (Greater Accra Region, Ashanti Region, Eastern Region), `esa_source` (HDX), `esa_processed` (2026-04-11).
---
## Quick Start
```python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-ghana-coronavirus-covid-19-subnational-cases")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
```
---
## Schema
| Column | Type | Null % | Range / Sample Values |
|---|---|---|---|
| `date` | datetime64[ns] | 0.0% | |
| `name` | object | 0.0% | Greater Accra Region, Ashanti Region, Eastern Region |
| `iso3166_2` | object | 0.0% | GH-AA, GH-AH, GH-EP |
| `iso3166_1` | object | 0.0% | GH |
| `cases` | int64 | 0.0% | -1288.0 – 2546.0 (mean 49.878) |
| `cumulative_cases` | int64 | 0.0% | 1.0 – 95682.0 (mean 10036.2964) |
| `esa_source` | object | 0.0% | HDX |
| `esa_processed` | object | 0.0% | 2026-04-11 |
---
## Numeric Summary
| Column | Min | Max | Mean | Median |
|---|---|---|---|---|
| `cases` | -1288.0 | 2546.0 | 49.878 | 13.0 |
| `cumulative_cases` | 1.0 | 95682.0 | 10036.2964 | 2423.0 |
---
## Curation
Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. 1 column(s) were cast from string to numeric or datetime based on parse-success rate (>85% threshold). The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet.
---
## Limitations
- Data originates from Safeture and has not been independently validated by ESA.
- Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection.
- Refer to the [original HDX dataset page](https://data.humdata.org/dataset/ghana-coronavirus-covid-19-subnational-cases) for the publisher's own methodology notes and caveats.
---
## Citation
```bibtex
@dataset{hdx_africa_ghana_coronavirus_covid_19_subnational_cases,
title = {Ghana: Coronavirus (COVID-19) Subnational Cases},
author = {Safeture},
year = {2025},
url = {https://data.humdata.org/dataset/ghana-coronavirus-covid-19-subnational-cases},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
```
---
*[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
在流行病学监测领域,数据集的构建质量直接影响模型预测的准确性。本数据集源于人道主义数据交换平台,由Safeture发布,记录了加纳各地区按日期汇总的新冠肺炎确诊病例。原始数据通过CKAN API获取后,经过系统的数据清洗流程:列名被统一转换为蛇形命名法,常见缺失值标记被规范化为NaN,并依据超过85%的解析成功率将字符串列转换为数值或日期时间类型。最终,数据以80/20的比例使用固定随机种子划分为训练集与测试集,并以Snappy压缩的Parquet格式存储,确保了数据的结构规整与高效访问。
特点
该数据集在时空流行病学分析中展现出鲜明的结构化特征。其核心观测单元为国家级聚合数据,共包含3,222行记录,涵盖8个变量,其中包含日期、地区名称、ISO行政区划代码、当日新增病例与累计病例等关键字段。地理范围精确至加纳的次级行政区划,时间序列数据完整,无缺失值。数值字段如新增病例呈现从-1288至2546的波动范围,反映了数据修正与回溯调整的现实情况,为模型训练提供了真实的噪声环境。数据集已预先划分为2,577行的训练集与644行的测试集,便于机器学习任务的直接应用。
使用方法
对于旨在利用时空数据进行疾病传播建模的研究者而言,该数据集提供了便捷的接入途径。用户可通过Hugging Face的`datasets`库直接加载,数据集标识符为`electricsheepafrica/africa-ghana-coronavirus-covid-19-subnational-cases`。加载后,数据可轻松转换为Pandas DataFrame进行探索性分析或特征工程。该数据集适用于表格分类、时间序列预测或回归任务,例如基于历史数据预测地区病例增长趋势。使用者需注意,数据源自第三方发布机构,建议结合原始HDX页面的方法论说明进行验证,以理解潜在的报告偏差或定义不一致性。
背景与挑战
背景概述
在流行病学与公共卫生监测领域,精细化的时空数据对于理解疾病传播动态、评估干预措施效果至关重要。加纳新型冠状病毒(COVID-19)地方性病例数据集由Safeture机构发布,并由Electric Sheep Africa于2025年重新整理为机器学习可用格式。该数据集聚焦于加纳国内各地区按日统计的确诊病例数,核心研究问题在于揭示COVID-19在加纳次国家级行政区域内的时空分布模式与传播轨迹。作为非洲地区具有代表性的公共卫生数据资源,它为区域性疾病建模、资源分配优化及政策效果评估提供了实证基础,对提升全球南方国家的疾病监测与响应能力具有显著影响力。
当前挑战
该数据集旨在解决流行病学中疾病传播的时空建模与预测挑战,其核心难点在于如何从有限且可能包含噪声的区域性数据中,准确推断出传染病的扩散规律与风险因素。在构建过程中,数据整合面临多重挑战:原始数据来自人道主义数据交换平台,可能存在报告延迟、定义不一致或数值误报等问题;自动化清洗流程虽统一了缺失值标记并进行了类型转换,但难以修正源数据固有的采样偏差或方法论差异。此外,数据集仅涵盖加纳部分区域,其代表性与泛化能力需谨慎评估,这些因素共同构成了利用该数据进行可靠分析的主要障碍。
常用场景
经典使用场景
在流行病学监测领域,该数据集为研究加纳国内COVID-19疫情的时空分布提供了关键数据支撑。其经典使用场景集中于构建时间序列模型,以分析不同行政区划内确诊病例的日增与累计趋势。研究人员常利用这些结构化数据,结合区域特征变量,训练回归或分类模型,从而揭示疫情传播的动态规律与区域异质性,为公共卫生决策提供量化依据。
解决学术问题
该数据集有效解决了传染病动力学研究中缺乏高质量、细粒度区域数据的难题。通过提供按日期和行政区划分的病例统计,它支持学者探究疫情扩散的时空模式、评估干预措施的效果,并验证流行病学理论模型。其存在促进了针对非洲地区,特别是加纳的疫情演变机制的实证分析,弥补了全球疫情数据中区域代表性不足的空白,提升了相关研究的科学严谨性与地理针对性。
衍生相关工作
围绕该数据集,已衍生出若干经典研究工作。例如,学者利用其构建了加纳COVID-19传播的时空预测模型,探究了区域间传播网络的结构特征。另有研究将其与其他社会经济或移动性数据融合,分析疫情扩散的社会决定因素。这些工作不仅深化了对加纳疫情的理解,也为机器学习在传染病监测中的应用提供了非洲语境下的重要案例,推动了跨学科方法在公共卫生领域的融合与创新。
以上内容由遇见数据集搜集并总结生成



