five

africa-population-zimbabwe

收藏
Hugging Face2026-04-29 更新2026-04-30 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-population-zimbabwe
下载链接
链接失效反馈
官方服务:
资源简介:
EM-DAT - 国家概况,津巴布韦数据集是一个关于津巴布韦自然灾害相关事件的聚合数据集。该数据集由流行病学研究中心发布,数据来源于人道主义数据交换平台。数据集包含2000年至2026年间津巴布韦的自然灾害事件,每条记录对应特定年份、国家和灾害子类型的组合,并报告了灾害数量、受影响总人数、总死亡人数和经济损失(原始值和调整值)等指标。数据集共包含29行数据,分为23行的训练集和5行的测试集。数据字段包括地理信息(年份、国家、ISO代码、灾害类型和子类型)、人口统计信息(原始和调整后的经济损失)、结果测量(总事件数、受影响人数、死亡人数)以及元数据(数据来源和处理日期)。该数据集适用于表格分类任务,特别是在非洲、人道主义、自然灾害等领域的研究和应用。数据集的局限性包括部分字段缺失值较多(如受影响人数、死亡人数、经济损失等),且数据未经过独立验证。

EM-DAT - Country Profile, Zimbabwe dataset is an aggregated dataset about natural disaster-related events in Zimbabwe. The dataset is published by the Centre for Research on the Epidemiology of Disasters and sourced from the Humanitarian Data Exchange platform. It contains natural disaster events in Zimbabwe from 2000 to 2026, with each record corresponding to a specific year, country, and disaster subtype combination, reporting metrics such as the number of disasters, total affected population, total deaths, and economic losses (original and adjusted values). The dataset consists of 29 rows of data, divided into 23 rows for training and 5 rows for testing. Data fields include geographic information (year, country, ISO code, disaster type and subtype), demographic information (original and adjusted economic losses), outcome measures (total events, affected population, deaths), and metadata (data source and processing date). The dataset is suitable for tabular classification tasks, particularly in research and applications related to Africa, humanitarian efforts, and natural disasters. Limitations of the dataset include many missing values in some fields (e.g., affected population, deaths, economic losses) and the data has not been independently verified.
创建时间:
2026-04-26
原始信息汇总

数据集概述:EM-DAT - Country Profiles, Zimbabwe

该数据集由灾害流行病学研究中心(Centre for Research on the Epidemiology of Disasters)发布,源数据来自人道主义数据交换(HDX),并经 Electric Sheep Africa 整理为机器学习就绪的 Parquet 格式。数据集聚焦于津巴布韦(ZWE)自然相关灾害的汇总统计信息。

数据集基本信息

  • 领域: 人口统计学与人口
  • 观察单位: 国家层面汇总
  • 语言: 英语
  • 许可协议: hdx-other
  • 数据行数: 总计 29 行(训练集 23 行,测试集 5 行)
  • 列数: 15 列(7 个数值型,8 个类别型,0 个日期时间型)
  • 地理范围: Zimbabwe (ZWE)
  • 数据最后更新: 2026-04-24

数据集内容与特征

每一行数据对应一个年份、国家、灾害子类型的组合,包含以下指标:

  • 灾害事件次数 (total_events)
  • 受影响总人口 (total_affected)
  • 死亡总人数 (total_deaths)
  • 经济损失(原始值和调整值) (total_damage_usd_original, total_damage_usd_adjusted)

变量说明

  • 地理相关: year(年份,范围 2000.0–2026.0)、country(国家,Zimbabwe)、iso(国家代码,ZWE)
  • 人口统计: total_damage_usd_original(原始经济损失,范围 1,200,000.0–500,000,000.0)、total_damage_usd_adjusted(调整后经济损失,范围 1,815,483.0–673,276,182.0)
  • 事件/结果: total_events(事件次数,范围 1.0–2.0)、total_affected(受影响人数,范围 300.0–7,600,000.0)、total_deaths(死亡人数,范围 2.0–628.0)
  • 标识符/元数据: esa_source(数据来源,HDX)、esa_processed(处理日期,2026-04-29)
  • 其他: disaster_group(灾害分组,Natural)、disaster_subroup(灾害子组,Hydrological / Meteorological / Climatological)、disaster_type(灾害类型,Flood / Storm / Drought)、disaster_subtype(灾害子类型,Riverine flood / Drought / Tropical cyclone)、cpi(消费者价格指数,范围 54.8952–100.0)

数据缺失情况(注意:部分列缺失率较高)

  • total_damage_usd_original 缺失率 72.4%
  • total_damage_usd_adjusted 缺失率 72.4%
  • total_deaths 缺失率 44.8%
  • total_affected 缺失率 20.7%

快速使用示例

python from datasets import load_dataset

ds = load_dataset("electricsheepafrica/africa-population-zimbabwe") train = ds["train"].to_pandas() test = ds["test"].to_pandas()

print(train.shape) train.head()

数据整理说明

  • 原始数据通过 CKAN API 从 HDX 下载并转换为 Parquet 格式
  • 列名统一为小写和下划线命名(snake_case)
  • 常见缺失值标记统一为 NaN
  • 基于解析成功率(>85% 阈值)将 5 列从字符串转换为数值或日期时间类型
  • 数据集按固定随机种子(42)以 80/20 比例划分为训练集和测试集

引用信息

bibtex @dataset{hdx_africa_population_zimbabwe, title = {EM-DAT - Country Profiles, Zimbabwe}, author = {Centre for Research on the Epidemiology of Disasters}, year = {2026}, url = {https://data.humdata.org/dataset/emdat-country-profiles-zwe}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自灾害流行病学研究中心(CRED)维护的EM-DAT数据库,经人道主义数据交换平台(HDX)发布后,由Electric Sheep Africa团队进行再加工与标准化处理。原始数据通过CKAN接口从HDX下载,随后被转换为Parquet格式,并经过严格的清洗流程:列名统一采用小写蛇形命名法,常见缺失值标记被统一替换为NaN,同时基于解析成功率阈值对部分列进行数据类型转换。最终,数据集按80:20的比例随机拆分为训练集与测试集,并采用Snappy压缩的Parquet格式存储,以提升机器学习的加载效率与可复现性。
特点
该数据集聚焦于津巴布韦境内自然危害事件的年度国家层面聚合统计,涵盖2000年至2026年间的洪水、风暴与干旱三类灾害。每条记录对应一个年份、国家及灾害子类型的组合,提供灾害次数、受影响人口数、死亡人数以及经济损失(原始值与通胀调整值)等关键指标。数据集包含15个变量,兼具数值型与类别型特征,并附有消费者价格指数(CPI)作为经济背景参照。尽管样本量较小(共计29条),但数据来源权威、结构清晰,便于进行时间序列分析与灾害影响建模。
使用方法
用户可通过HuggingFace的datasets库直接加载该数据集,调用`load_dataset("electricsheepafrica/africa-population-zimbabwe")`即可获取训练与测试拆分。推荐使用Pandas的`to_pandas()`方法将数据转为DataFrame格式,以便进行探索性数据分析、可视化或特征工程。由于部分关键列(如受影响人口、死亡人数、经济损失)缺失比例超过20%,在建模时应审慎处理缺失值,并参考原始HDX页面的方法学说明以理解数据局限。该数据集尤其适用于津巴布韦灾害风险评估、人道主义响应规划及相关预测模型的研究。
背景与挑战
背景概述
非洲大陆长期面临自然灾害的严峻挑战,津巴布韦作为南部非洲内陆国家,其干旱、洪水和热带气旋等极端气候事件频发,对当地人口与经济发展构成持续威胁。EM-DAT灾害数据库由灾害流行病学研究中心(CRED)建立并维护,是全球灾害数据的重要权威来源。该数据集“africa-population-zimbabwe”由Electric Sheep Africa于2026年基于CRED提供的津巴布韦国家概况数据整理而成,以ML就绪的Parquet格式呈现。其核心研究问题聚焦于津巴布韦境内自然灾害的历史模式及其对受影响人口、死亡人数和经济损失的量化分析。数据集涵盖2000至2026年间共计28条记录,虽样本规模有限,但为区域灾害风险管理、人道主义响应及机器学习模型在低成本数据环境下的应用探索提供了基础性资源,对非洲灾害流行病学与数据驱动决策领域具有开创性意义。
当前挑战
该数据集所面临的挑战首先源自其应用领域——灾害影响建模与人口脆弱性评估。由于津巴布韦灾害事件分布不均,数据呈现显著的小样本与类别不平衡特征,如部分灾害类型仅记录单一事件,导致模型泛化能力受限。此外,原始数据的缺失问题尤为突出:总受影响人口缺失率为20.7%,总死亡人数缺失率达44.8%,经济损失数据缺失高达72.4%,极大增加了统计分析与预测建模的难度。在构建过程中,数据来源为第三方机构,未经验证的可能错报与定义不一致性难以消除;同时,来自HDX的原始数据格式多样,需经历繁杂的清洗与标准化流程,包括统一缺失值标记、类型转换及随机分割,过程中可能引入潜在的偏见或信息损失,进一步加剧了数据集在现实应用中可靠性与可用性的挑战。
常用场景
经典使用场景
在灾害流行病学与非洲区域风险评估研究中,africa-population-zimbabwe数据集以津巴布韦为地理锚点,系统整合了2000年至2026年间洪水、风暴与干旱等自然灾害的年度聚合记录。经典使用场景集中于构建时序预测模型,通过受灾人数、死亡人数及经济损失等关键指标,量化自然灾害对人口与经济的冲击烈度。研究者可借助该数据集探索气候极端事件在非洲内陆国家的长期演变规律,或将其作为样本纳入跨区域灾害脆弱性对分析,揭示自然致灾因子与社会经济承载力的交互作用。
衍生相关工作
围绕该数据集已衍生出多项前沿探索,例如将ML-ready的津巴布韦灾害记录与卫星遥感影像联合训练,构建多模态灾害严重程度分级模型;亦有工作利用其年度聚合特征,作为非洲大陆灾害预警Transformer架构的预训练任务之一。在方法论层面,研究者尝试对缺失率超过20%的受灾损失字段引入贝叶斯插补或生成对抗网络(GAN),以增强模型在稀疏标注场景下的鲁棒性。这些延伸工作不仅验证了数据集的可迁移价值,更催化了‘人道主义数据科学’这一交叉领域的方法论创新。
数据集最近研究
最新研究方向
基于非洲津巴布韦的自然灾害与人口影响数据,该数据集聚焦于利用机器学习方法量化洪涝、干旱及风暴等极端事件对受灾人口、死亡人数及经济损失的动态影响。当前前沿研究方向包括结合时序预测模型与灾害归因分析,探索气候变化背景下区域脆弱性的演变规律;同时,通过与流行病学及人道主义响应数据交叉验证,推动灾害影响评估从传统统计描述向可泛化的预测范式跃迁,为非洲地区灾害风险预警与适应性政策制定提供数据驱动的决策支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作