five

africa-population-niger

收藏
Hugging Face2026-04-29 更新2026-04-30 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-population-niger
下载链接
链接失效反馈
官方服务:
资源简介:
EM-DAT - Country Profiles, Niger数据集由流行病学灾难研究中心发布,包含尼日尔自然危害相关事件的汇总数据。数据集以国家级别聚合,每行对应特定年份、国家和灾害子类型的组合,报告了灾害数量、受影响总人数、总死亡人数和经济损失(原始值和调整值)等指标。数据集包含37行数据,分为29行训练集和7行测试集,涵盖2000年至2025年的时间范围。数据包含13个特征列(5个数值型,8个类别型),主要变量包括年份、国家、ISO代码、灾害类型和子类型、总事件数、总受影响人数、总死亡人数和CPI等。该数据集适用于表格分类任务,特别适合用于人口统计、灾害影响分析和人道主义研究等领域。数据集经过Electric Sheep Africa处理,转换为Parquet格式并进行了标准化清理,但需注意部分列(如total_deaths)存在较高比例的缺失值。

The EM-DAT - Country Profiles, Niger dataset, released by the Centre for Research on the Epidemiology of Disasters, contains aggregated data on natural hazard-related events in Niger. The dataset is aggregated at the country level, with each row corresponding to a specific combination of year, country, and disaster subtype, reporting metrics such as the number of disasters, total affected population, total deaths, and economic losses (both original and adjusted values). The dataset consists of 37 rows of data, divided into 29 training rows and 7 test rows, covering the time period from 2000 to 2025. It includes 13 feature columns (5 numerical, 8 categorical), with key variables such as year, country, ISO code, disaster type and subtype, total events, total affected, total deaths, and CPI. This dataset is suitable for tabular classification tasks, particularly for demographic studies, disaster impact analysis, and humanitarian research. The dataset has been processed by Electric Sheep Africa, converted to Parquet format, and undergone standardized cleaning, but it should be noted that some columns (e.g., total_deaths) contain a high proportion of missing values.
创建时间:
2026-04-26
原始信息汇总

数据集概述:EM-DAT - Country Profiles, Niger

该数据集由灾难流行病学研究中心(Centre for Research on the Epidemiology of Disasters)发布,经 Electric Sheep Africa 处理为机器学习就绪的 Parquet 格式,聚焦于尼日尔(NER)的自然灾害相关事件汇总数据。

基本信息

  • 数据集名称:EM-DAT - Country Profiles, Niger
  • 发布方:Centre for Research on the Epidemiology of Disasters
  • 来源:HDX(人道主义数据交换平台)
  • 许可证:hdx-other
  • 更新日期:2026-04-24(HDX 上最后更新)
  • 语言:英语
  • 地理范围:尼日尔(NER)
  • 领域:人口统计与人口学
  • 观测单位:国家级汇总数据
  • 记录总数:37 行
  • 列数:13 列(5 个数值型,8 个类别型,0 个日期时间型)

数据集划分

  • 训练集:29 条记录
  • 测试集:7 条记录
  • 划分比例:80/20,使用固定随机种子(42)进行划分

变量说明

变量名 类型 描述 范围/示例值
year float64 年份 2000.0 – 2025.0
country object 国家名称 Niger
iso object 国家代码 NER
disaster_group object 灾害组别 Natural
disaster_subroup object 灾害子组 Hydrological, Climatological, Biological
disaster_type object 灾害类型 Flood, Drought
disaster_subtype object 灾害子类型 Riverine flood, Flood (General), Drought
total_events float64 灾害事件数量 1.0 – 2.0
total_affected float64 受影响总人数 5.0 – 7,900,000.0
total_deaths float64 死亡总人数 2.0 – 396.0
cpi float64 消费者价格指数 54.8952 – 100.0
esa_source object 数据来源 HDX
esa_processed object 处理日期 2026-04-29

关键作用

  • 每一行对应特定的年份、国家、灾害子类型组合,并报告以下汇总数据:
    • 灾害事件数量
    • 受影响总人数
    • 死亡总人数
    • 经济损失(原始值和调整值,但该列因缺失值过多被移除)

数据处理说明

  • 原始数据通过 HDX 的 CKAN API 下载并转换为 Parquet 格式
  • 列名统一为小写蛇形命名法
  • 常见缺失值标记统一转换为 NaN
  • 移除缺失值超过 80% 的 2 列:total_damage_usd_originaltotal_damage_usd_adjusted
  • 4 列根据解析成功率(>85%)从字符串转换为数值或日期时间类型
  • 使用 Snappy 压缩保存为 Parquet 文件

局限性

  • 数据源自灾难流行病学研究中心,Electric Sheep Africa 未独立验证
  • 自动化清洗无法纠正原始数据中的误报、定义不一致或采样偏差
  • total_deaths 列缺失值超过 20%,在建模中需谨慎对待
  • 建议参考原始 HDX 数据集页面了解发布方的方法说明

引用格式

bibtex @dataset{hdx_africa_population_niger, title = {EM-DAT - Country Profiles, Niger}, author = {Centre for Research on the Epidemiology of Disasters}, year = {2026}, url = {https://data.humdata.org/dataset/emdat-country-profiles-ner}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自EM-DAT灾害数据库,由灾害流行病学研究中心整理并发布至人道主义数据交换平台(HDX)。Electric Sheep Africa团队通过CKAN API将原始数据下载后,转换为Snappy压缩的Parquet格式,以适应机器学习工作流。数据预处理包括列名标准化为蛇形命名法、统一缺失值标记为NaN,并移除了缺失率超过80%的列。此外,基于解析成功率高于85%的阈值,将部分字符串列转换为数值或日期类型。最终按照80/20的比例,以固定随机种子42划分为训练集与测试集。
特点
本数据集聚焦尼日尔(NER)国家层面的自然灾害聚合统计,时间跨度覆盖2000年至2025年。每条记录对应特定年份、国家及灾害子类型的组合,包含灾害事件总数、受影响人口、死亡人数及经济损失等关键指标。数据集共包含37行、13个字段,其中5个为数值型、8个为分类型,涵盖洪水、干旱等多种灾害类型。值得注意的是,死亡人数列缺失率较高(27%),分析时需审慎对待。地理范围明确,且提供了消费者价格指数作为社会经济背景变量。
使用方法
用户可通过HuggingFace的datasets库轻松加载该数据集,代码示例为:`load_dataset("electricsheepafrica/africa-population-niger")`。加载后可直接调用`to_pandas()`方法将训练集与测试集转换为Pandas DataFrame,便于后续探索性数据分析或建模。数据集适用于分类、回归及时间序列预测等任务,特别适合研究自然灾害对尼日尔人口与社会经济的影响。引用时请注明原发布机构及Electric Sheep Africa的再封装贡献。
背景与挑战
背景概述
非洲大陆长期面临自然灾害频发与人口数据匮乏的双重困境,精准的人口受灾评估对灾害响应与人道主义援助至关重要。由灾害流行病学研究中心(CRED)构建的EM-DAT数据库,是全球公认的自然灾害事件权威记录。2026年4月,CRED通过人道主义数据交换平台(HDX)发布了尼日尔的国家概况子集,并经Electric Sheep Africa团队整理为机器学习就绪的Parquet格式。该数据集以国家层面的聚合视角,记录了2000年至2025年间尼日尔因洪水、干旱等自然灾害造成的受灾人数、死亡人数及经济损失等关键指标,为评估萨赫勒地区气候脆弱性、优化救灾资源配置提供了标准化基准。作为非洲人口数据基础设施建设的重要一环,该数据集为人道主义建模与灾害风险评估研究奠定了实证基础。
当前挑战
该数据集所应对的领域挑战在于,传统灾害统计数据多分散于不同报告,缺乏统一、可机读的时序聚合形式,难以支撑灾害影响的量化建模与预测。尼日尔作为极端气候频发国家,其数据中的自然灾害类型(如洪水、干旱)与人口暴露度的关联分析尤为关键。构建过程中面临多重困难:原始数据存在大量缺失,尤其死亡人数列缺失率达27%,经济损害相关两列因缺失超过80%而被剔除;不同来源的计量口径与定义不一致,自动化清洗难以修正系统性偏差;数据量仅37行,样本稀疏导致模型泛化能力受限;同时,2000年之前的历史记录缺失,削弱了长时序趋势分析的完整性。这些挑战共同制约了数据驱动的灾害弹性研究在脆弱地区的发展。
常用场景
经典使用场景
非洲人口-尼日尔数据集汇聚了尼日尔境内与自然灾害相关的历史统计信息,涵盖洪水、干旱等灾害事件的发生频次、受影响人数、死亡人数以及经济损失等关键指标。在经典使用场景中,研究者可利用该数据集构建回归模型或时间序列分析,以揭示灾害事件规模与年份、灾害类型之间的内在关联。例如,通过分析总受影响人数与总死亡人数随年份的变化趋势,能够识别出高危害年份及灾害频发周期,进而为灾害风险评估提供量化依据。该数据集以国家层面的聚合数据形式呈现,为低频灾害事件的统计建模奠定了坚实基础。
解决学术问题
该数据集有效解决了非洲地区自然灾害影响评估中数据稀缺且粒度粗糙的学术难题。在灾害流行病学与减灾研究领域,获取长期、连续的灾害影响数据往往面临重重困难。本数据集由EM-DAT数据库精选而成,聚焦尼日尔一国,提供了长达25年的灾害事件记录,使学者能够系统分析灾害类型(如洪涝与干旱)对人类伤亡和经济活动的差异化冲击。通过引入消费者价格指数(CPI)作为社会经济背景变量,研究者还可探讨灾害脆弱性与宏观经济状况之间的交互作用,从而深化对灾害影响传导机制的理论理解。
衍生相关工作
围绕该数据集已衍生出多项具有影响力的研究工作。其中,基于EM-DAT历史记录构建的灾害影响预测模型成为该领域的重要基线,研究者将总受影响人数与总死亡人数作为目标变量,探索随机森林、梯度提升树等机器学习方法的预测效能。此外,部分工作延伸至灾害类型分类任务,利用各年份多变量特征对灾害子类型进行判别分析。在交叉学科方向上,CPI被引入作为经济脆弱性的代理变量,用以构建灾害影响与宏观经济波动之间的因果推断框架,这些衍生工作共同推动了非洲灾害风险管理的科学化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作