five

africa-population-tanzania

收藏
Hugging Face2026-04-29 更新2026-04-30 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-population-tanzania
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为EM-DAT - 坦桑尼亚联合共和国国家概况,由流行病学研究中心灾难研究部门发布,数据来源于人道主义数据交换平台(HDX)。数据集记录了坦桑尼亚联合共和国与自然灾害相关事件的聚合数据,每条记录对应特定年份、国家和灾害子类型的组合,包含以下指标:灾害数量、受影响总人数、死亡总数以及经济损失(原始值和调整值)。数据集包含53条国家层面的聚合记录,共13个字段(5个数值型,8个分类型),分为42条训练数据和10条测试数据。地理范围限定为坦桑尼亚(TZA),时间跨度为2000年至2026年。关键变量包括:年份、国家、ISO代码、灾害类型/子类型、总事件数、受影响人数、死亡人数以及消费者价格指数(CPI)等。数据集经过Electric Sheep Africa整理为适合机器学习的Parquet格式,并进行了数据清洗和标准化处理。该数据集适用于表格分类任务,特别适合用于自然灾害影响分析、人口统计学研究等人道主义相关领域。

This dataset is named EM-DAT - Country Profile of the United Republic of Tanzania, released by the Disaster Research Department of the Centre for Epidemiological Research, with data sourced from the Humanitarian Data Exchange (HDX) platform. It documents aggregated data on natural disaster-related events in the United Republic of Tanzania, where each record corresponds to a combination of a specific year, country, and disaster sub-type, and includes the following metrics: number of disasters, total affected population, total fatalities, and economic losses (original and adjusted values). The dataset contains 53 country-level aggregated records, totaling 13 fields (5 numeric and 8 categorical), and is split into 42 training samples and 10 test samples. Its geographic scope is limited to Tanzania (TZA), with a time span from 2000 to 2026. Key variables include year, country, ISO code, disaster type/sub-type, total number of events, number of affected people, number of fatalities, and Consumer Price Index (CPI), among others. The dataset was formatted into machine-learning-ready Parquet files by Electric Sheep Africa, and underwent data cleaning and standardization processing. It is suitable for tabular classification tasks, and is particularly applicable to humanitarian-related fields such as natural disaster impact analysis and demographic research.
创建时间:
2026-04-26
原始信息汇总

数据集概述:EM-DAT - Country Profiles, United Republic of Tanzania

基本信息

  • 数据集名称:EM-DAT - Country Profiles, United Republic of Tanzania
  • 数据集 IDelectricsheepafrica/africa-population-tanzania
  • 发布者:Centre for Research on the Epidemiology of Disasters
  • 来源:HDX
  • 许可证hdx-other
  • 最后更新:2026-04-24
  • 语言:英语
  • 标签:非洲、人道主义、HDX、受灾人口、经济、死亡、自然灾害、坦桑尼亚

数据集描述

该数据集提供了坦桑尼亚联合共和国与自然灾害相关事件的汇总统计信息,每条记录包含年份、灾害子类型及其影响数据(如受灾人数、死亡人数和经济损失)。数据源自EM-DAT数据库,由Electric Sheep Africa整理为ML就绪的Parquet格式。

数据集特征

  • 领域:人口统计与人口
  • 观察单位:国家级别汇总
  • 总行数:53
  • 列数:13(5个数值列,8个分类列)
  • 数据划分
    • 训练集:42行
    • 测试集:10行
  • 地理范围:坦桑尼亚(TZA)

变量说明

变量 类型 说明
year float64 年份,范围2000.0–2026.0
country object 国家名称:坦桑尼亚
iso object ISO代码:TZA
disaster_group object 灾害组:Natural
disaster_subroup object 灾害子组:Hydrological, Meteorological, Geophysical
disaster_type object 灾害类型:Flood, Storm, Earthquake
disaster_subtype object 灾害子类型:Riverine flood, Flood (General), Flash flood
total_events float64 事件总数,范围1.0–3.0
total_affected float64 受灾总人数,范围140.0–3,700,000.0
total_deaths float64 死亡总人数,范围1.0–155.0
cpi float64 消费者价格指数,范围54.8952–100.0
esa_source object 数据来源:HDX
esa_processed object 处理日期:2026-04-29

数值列统计摘要

最小值 最大值 平均值 中位数
year 2000.0 2026.0 2013.1923 2014.5
total_events 1.0 3.0 1.2308 1.0
total_affected 140.0 3,700,000.0 326,726.4444 7,851.0
total_deaths 1.0 155.0 23.8889 12.5
cpi 54.8952 100.0 74.2171 75.4685

数据来源与引用

  • 来源:原始数据来自HDX上的EM-DAT国家概况数据集
  • 引用格式: bibtex @dataset{hdx_africa_population_tanzania, title = {EM-DAT - Country Profiles, United Republic of Tanzania}, author = {Centre for Research on the Epidemiology of Disasters}, year = {2026}, url = {https://data.humdata.org/dataset/emdat-country-profiles-tza}, note = {Repackaged for machine learning by Electric Sheep Africa} }

局限性

  • 数据来源于应急灾害流行病学研究中心,未经Electric Sheep Africa独立验证。
  • 自动清理无法纠正原始数据中的误报、定义不一致或采样偏差。
  • total_deaths 列缺失值超过20%,在建模中需谨慎使用。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自国际灾害数据库EM-DAT,以坦桑尼亚联合共和国为地理范围,聚合了按年份、灾害子类型划分的国家级统计指标。原始数据通过HDX平台的CKAN接口获取,随后经Electric Sheep Africa团队进行标准化处理:列名统一为小写蛇形命名法,缺失值标记(如N/A、null等)被归一化为NaN,超过80%缺失的字段(如原始与调整后的经济损失)被移除。最终数据以Snappy压缩的Parquet格式存储,并采用固定随机种子按80/20比例划分为训练集与测试集。
特点
该数据集呈现了坦桑尼亚2000至2026年间自然灾害的时序概览,涵盖洪水、风暴、地震三种类型,记录总灾害事件数、受影响人口、死亡人数及消费价格指数(CPI)等关键变量。其独特之处在于将宏观经济学指标(CPI)与灾情数据融合,为分析灾害对经济韧性的长期影响提供了可能。数据集仅含53行样本,但缺失率差异显著:总受影响人口缺失15%,而死亡人数缺失高达32%,提示建模时需谨慎处理。
使用方法
用户可通过HuggingFace Datasets库快速加载该数据集,调用`load_dataset`函数获取训练与测试分片,并借助`to_pandas()`方法转化为Pandas DataFrame进行分析。数据以表格分类任务为核心,适合用于构建预测灾害影响规模的回归或分类模型。需注意,原始数据未经独立验证,高缺失率变量(如死亡人数)在建模时应审慎处理,并建议参考EM-DAT官方方法论以理解指标定义与潜在偏差。
背景与挑战
背景概述
该数据集由灾害流行病学研究中心(CRED)创建,并由Electric Sheep Africa团队于2026年4月整理并发布在HuggingFace平台上,聚焦于坦桑尼亚联合共和国境内与自然灾害相关的人口统计数据。其核心研究问题在于系统性地记录和分析自然灾害对坦桑尼亚人口造成的冲击,包括受影响人数、死亡人数以及经济损失。数据来源于人道主义数据交换平台(HDX)上的EM-DAT国家资料,覆盖2000年至2026年间的水文、气象和地质灾害事件。作为针对特定非洲国家的精细化数据集,它为区域灾害风险管理、人道主义响应和人口脆弱性研究提供了宝贵的结构化数据支撑,在非洲灾害流行病学与人口统计交叉领域具有重要的参考价值。
当前挑战
该数据集所应对的领域挑战包括:一是自然灾害对坦桑尼亚这样数据基础设施薄弱的发展中国家带来的高人口风险与响应不确定性,亟需量化历史灾害影响以支持前瞻性规划;二是现有全球灾害数据库缺乏针对特定非洲国家的局部化、可机器学习就绪的格式化数据,导致模型训练和预测困难。在构建过程中,主要挑战涉及:原始数据存在高达32.1%的死亡人数缺失率和15.1%的受影响人数缺失率,需要精细的缺失值处理策略;多源数据中定义不一致和报告偏差的问题无法通过自动化清洗完全解决;经济损失相关字段因缺失率超过80%而被移除,削弱了数据集对全面灾害经济影响的表征能力。
常用场景
经典使用场景
该数据集以坦桑尼亚联合共和国为地理单元,汇集了该国在2000年至2026年间因自然灾害(如洪水、风暴、地震)所引发的灾害事件次数、受影响人口数量、死亡人数及经济损失等关键指标。其经典使用场景在于为灾害流行病学研究提供标准化的国家层面聚合数据,支撑灾害频率与强度的时序分析,以及构建灾害影响预测模型。研究者常利用该数据集的年度维度与多灾害类型标签,分析不同灾害子类对人口脆弱性的差异化影响。
实际应用
在实际应用中,该数据集为人道主义救援组织及地方政府制定防灾减灾策略提供了数据基础。通过分析历年受影响人数与死亡人数的分布,决策者可识别高风险区域与灾害类型,从而合理调配应急资源。此外,数据集中的消费者价格指数变量可用于耦合经济脆弱性分析,辅助评估灾害对当地物价与家庭购买力的连锁反应。国际发展机构亦常将其纳入非洲气候变化适应项目的基线评估,用于模拟不同灾害情景下的潜在人口暴露度。
衍生相关工作
该数据集衍生了一系列将灾害暴露与社会经济指标相结合的研究工作。经典路线是基于总受影响人数与死亡人数构建对数线性回归模型,揭示灾害强度与人口脆弱性之间的非线性关系。另有工作利用该数据训练随机森林分类器,预测特定年份是否会发生致灾事件。在地理信息科学领域,该数据集被用作验证卫星遥感指标(如归一化植被指数)与实地灾害损失之间关联的基准。数据整理方Electric Sheep Africa所采用的自动化清洗与标准化流程,也启发了后续非洲大陆其他灾害数据集的统一处理范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作