five

electricsheepafrica/africa-ghana-coronavirus-covid-19-subnational-cases

收藏
Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-ghana-coronavirus-covid-19-subnational-cases
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - no-annotation language_creators: - found language: - en license: cc-by-4.0 multilinguality: - monolingual size_categories: - 1K<n<10K source_datasets: - original task_categories: - tabular-classification task_ids: [] tags: - africa - humanitarian - hdx - electric-sheep-africa - covid-19 - disease - gha pretty_name: "Ghana: Coronavirus (COVID-19) Subnational Cases" dataset_info: splits: - name: train num_examples: 2577 - name: test num_examples: 644 --- # Ghana: Coronavirus (COVID-19) Subnational Cases **Publisher:** Safeture · **Source:** [HDX](https://data.humdata.org/dataset/ghana-coronavirus-covid-19-subnational-cases) · **License:** `cc-by` · **Updated:** 2025-08-26 --- ## Abstract Number of COVID-19 confirmed cases by region and date Each row in this dataset represents country-level aggregates. Temporal coverage is indicated by the `date` column(s). Geographic scope: **GHA**. *Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).* --- ## Dataset Characteristics | | | |---|---| | **Domain** | Epidemiology and disease surveillance | | **Unit of observation** | Country-level aggregates | | **Rows (total)** | 3,222 | | **Columns** | 8 (2 numeric, 5 categorical, 1 datetime) | | **Train split** | 2,577 rows | | **Test split** | 644 rows | | **Geographic scope** | GHA | | **Publisher** | Safeture | | **HDX last updated** | 2025-08-26 | --- ## Variables **Geographic** — `iso3166_2` (GH-AA, GH-AH, GH-EP), `iso3166_1` (GH), `cumulative_cases` (range 1.0–95682.0). **Temporal** — `date`. **Outcome / Measurement** — `cases` (range -1288.0–2546.0). **Identifier / Metadata** — `name` (Greater Accra Region, Ashanti Region, Eastern Region), `esa_source` (HDX), `esa_processed` (2026-04-11). --- ## Quick Start ```python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-ghana-coronavirus-covid-19-subnational-cases") train = ds["train"].to_pandas() test = ds["test"].to_pandas() print(train.shape) train.head() ``` --- ## Schema | Column | Type | Null % | Range / Sample Values | |---|---|---|---| | `date` | datetime64[ns] | 0.0% | | | `name` | object | 0.0% | Greater Accra Region, Ashanti Region, Eastern Region | | `iso3166_2` | object | 0.0% | GH-AA, GH-AH, GH-EP | | `iso3166_1` | object | 0.0% | GH | | `cases` | int64 | 0.0% | -1288.0 – 2546.0 (mean 49.878) | | `cumulative_cases` | int64 | 0.0% | 1.0 – 95682.0 (mean 10036.2964) | | `esa_source` | object | 0.0% | HDX | | `esa_processed` | object | 0.0% | 2026-04-11 | --- ## Numeric Summary | Column | Min | Max | Mean | Median | |---|---|---|---|---| | `cases` | -1288.0 | 2546.0 | 49.878 | 13.0 | | `cumulative_cases` | 1.0 | 95682.0 | 10036.2964 | 2423.0 | --- ## Curation Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. 1 column(s) were cast from string to numeric or datetime based on parse-success rate (>85% threshold). The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet. --- ## Limitations - Data originates from Safeture and has not been independently validated by ESA. - Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection. - Refer to the [original HDX dataset page](https://data.humdata.org/dataset/ghana-coronavirus-covid-19-subnational-cases) for the publisher's own methodology notes and caveats. --- ## Citation ```bibtex @dataset{hdx_africa_ghana_coronavirus_covid_19_subnational_cases, title = {Ghana: Coronavirus (COVID-19) Subnational Cases}, author = {Safeture}, year = {2025}, url = {https://data.humdata.org/dataset/ghana-coronavirus-covid-19-subnational-cases}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} } ``` --- *[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
在流行病学监测领域,数据集的构建质量直接影响模型预测的准确性。本数据集源于人道主义数据交换平台,由Safeture发布,记录了加纳各地区按日期汇总的新冠肺炎确诊病例。原始数据通过CKAN API获取后,经过系统的数据清洗流程:列名被统一转换为蛇形命名法,常见缺失值标记被规范化为NaN,并依据超过85%的解析成功率将字符串列转换为数值或日期时间类型。最终,数据以80/20的比例使用固定随机种子划分为训练集与测试集,并以Snappy压缩的Parquet格式存储,确保了数据的结构规整与高效访问。
特点
该数据集在时空流行病学分析中展现出鲜明的结构化特征。其核心观测单元为国家级聚合数据,共包含3,222行记录,涵盖8个变量,其中包含日期、地区名称、ISO行政区划代码、当日新增病例与累计病例等关键字段。地理范围精确至加纳的次级行政区划,时间序列数据完整,无缺失值。数值字段如新增病例呈现从-1288至2546的波动范围,反映了数据修正与回溯调整的现实情况,为模型训练提供了真实的噪声环境。数据集已预先划分为2,577行的训练集与644行的测试集,便于机器学习任务的直接应用。
使用方法
对于旨在利用时空数据进行疾病传播建模的研究者而言,该数据集提供了便捷的接入途径。用户可通过Hugging Face的`datasets`库直接加载,数据集标识符为`electricsheepafrica/africa-ghana-coronavirus-covid-19-subnational-cases`。加载后,数据可轻松转换为Pandas DataFrame进行探索性分析或特征工程。该数据集适用于表格分类、时间序列预测或回归任务,例如基于历史数据预测地区病例增长趋势。使用者需注意,数据源自第三方发布机构,建议结合原始HDX页面的方法论说明进行验证,以理解潜在的报告偏差或定义不一致性。
背景与挑战
背景概述
在流行病学与公共卫生监测领域,精细化的时空数据对于理解疾病传播动态、评估干预措施效果至关重要。加纳新型冠状病毒(COVID-19)地方性病例数据集由Safeture机构发布,并由Electric Sheep Africa于2025年重新整理为机器学习可用格式。该数据集聚焦于加纳国内各地区按日统计的确诊病例数,核心研究问题在于揭示COVID-19在加纳次国家级行政区域内的时空分布模式与传播轨迹。作为非洲地区具有代表性的公共卫生数据资源,它为区域性疾病建模、资源分配优化及政策效果评估提供了实证基础,对提升全球南方国家的疾病监测与响应能力具有显著影响力。
当前挑战
该数据集旨在解决流行病学中疾病传播的时空建模与预测挑战,其核心难点在于如何从有限且可能包含噪声的区域性数据中,准确推断出传染病的扩散规律与风险因素。在构建过程中,数据整合面临多重挑战:原始数据来自人道主义数据交换平台,可能存在报告延迟、定义不一致或数值误报等问题;自动化清洗流程虽统一了缺失值标记并进行了类型转换,但难以修正源数据固有的采样偏差或方法论差异。此外,数据集仅涵盖加纳部分区域,其代表性与泛化能力需谨慎评估,这些因素共同构成了利用该数据进行可靠分析的主要障碍。
常用场景
经典使用场景
在流行病学监测领域,该数据集为研究加纳国内COVID-19疫情的时空分布提供了关键数据支撑。其经典使用场景集中于构建时间序列模型,以分析不同行政区划内确诊病例的日增与累计趋势。研究人员常利用这些结构化数据,结合区域特征变量,训练回归或分类模型,从而揭示疫情传播的动态规律与区域异质性,为公共卫生决策提供量化依据。
解决学术问题
该数据集有效解决了传染病动力学研究中缺乏高质量、细粒度区域数据的难题。通过提供按日期和行政区划分的病例统计,它支持学者探究疫情扩散的时空模式、评估干预措施的效果,并验证流行病学理论模型。其存在促进了针对非洲地区,特别是加纳的疫情演变机制的实证分析,弥补了全球疫情数据中区域代表性不足的空白,提升了相关研究的科学严谨性与地理针对性。
衍生相关工作
围绕该数据集,已衍生出若干经典研究工作。例如,学者利用其构建了加纳COVID-19传播的时空预测模型,探究了区域间传播网络的结构特征。另有研究将其与其他社会经济或移动性数据融合,分析疫情扩散的社会决定因素。这些工作不仅深化了对加纳疫情的理解,也为机器学习在传染病监测中的应用提供了非洲语境下的重要案例,推动了跨学科方法在公共卫生领域的融合与创新。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务