electricsheepafrica/africa-world-bank-energy-and-mining-indicators-for-ghana
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-world-bank-energy-and-mining-indicators-for-ghana
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- no-annotation
language_creators:
- found
language:
- en
license: cc-by-4.0
multilinguality:
- monolingual
size_categories:
- 1K<n<10K
source_datasets:
- original
task_categories:
- tabular-regression
task_ids: []
tags:
- africa
- humanitarian
- hdx
- electric-sheep-africa
- development
- energy
- indicators
- gha
pretty_name: "Ghana - Energy and Mining"
dataset_info:
splits:
- name: train
num_examples: 1162
- name: test
num_examples: 290
---
# Ghana - Energy and Mining
**Publisher:** World Bank Group · **Source:** [HDX](https://data.humdata.org/dataset/world-bank-energy-and-mining-indicators-for-ghana) · **License:** `cc-by` · **Updated:** 2026-03-27
---
## Abstract
Contains data from the World Bank's [data portal](http://data.worldbank.org/). There is also a [consolidated country dataset](https://data.humdata.org/dataset/world-bank-combined-indicators-for-ghana) on HDX.
The world economy needs ever-increasing amounts of energy to sustain economic growth, raise living standards, and reduce poverty. But today's trends in energy use are not sustainable. As the world's population grows and economies become more industrialized, nonrenewable energy sources will become scarcer and more costly. Data here on energy production, use, dependency, and efficiency are compiled by the World Bank from the International Energy Agency and the Carbon Dioxide Information Analysis Center.
Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-27. Geographic scope: **GHA**.
*Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).*
---
## Dataset Characteristics
| | |
|---|---|
| **Domain** | Demographics and population |
| **Unit of observation** | Country-level aggregates |
| **Rows (total)** | 1,453 |
| **Columns** | 8 (2 numeric, 6 categorical, 0 datetime) |
| **Train split** | 1,162 rows |
| **Test split** | 290 rows |
| **Geographic scope** | GHA |
| **Publisher** | World Bank Group |
| **HDX last updated** | 2026-03-27 |
---
## Variables
**Geographic** — `country_name` (Ghana), `country_iso3` (GHA), `year` (range 1962.0–2023.0).
**Outcome / Measurement** — `value` (range -43.168–3297615304.8674).
**Identifier / Metadata** — `indicator_name` (Adjusted savings: mineral depletion (current US$), Total natural resources rents (% of GDP), Mineral rents (% of GDP)), `indicator_code` (NY.ADJ.DMIN.CD, NY.GDP.TOTL.RT.ZS, NY.GDP.MINR.RT.ZS), `esa_source` (HDX), `esa_processed` (2026-04-11).
---
## Quick Start
```python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-world-bank-energy-and-mining-indicators-for-ghana")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
```
---
## Schema
| Column | Type | Null % | Range / Sample Values |
|---|---|---|---|
| `country_name` | object | 0.0% | Ghana |
| `country_iso3` | object | 0.0% | GHA |
| `year` | int64 | 0.0% | 1962.0 – 2023.0 (mean 2001.0633) |
| `indicator_name` | object | 0.0% | Adjusted savings: mineral depletion (current US$), Total natural resources rents (% of GDP), Mineral rents (% of GDP) |
| `indicator_code` | object | 0.0% | NY.ADJ.DMIN.CD, NY.GDP.TOTL.RT.ZS, NY.GDP.MINR.RT.ZS |
| `value` | float64 | 0.0% | -43.168 – 3297615304.8674 (mean 26668173.3514) |
| `esa_source` | object | 0.0% | HDX |
| `esa_processed` | object | 0.0% | 2026-04-11 |
---
## Numeric Summary
| Column | Min | Max | Mean | Median |
|---|---|---|---|---|
| `year` | 1962.0 | 2023.0 | 2001.0633 | 2003.0 |
| `value` | -43.168 | 3297615304.8674 | 26668173.3514 | 9.8891 |
---
## Curation
Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet.
---
## Limitations
- Data originates from World Bank Group and has not been independently validated by ESA.
- Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection.
- Refer to the [original HDX dataset page](https://data.humdata.org/dataset/world-bank-energy-and-mining-indicators-for-ghana) for the publisher's own methodology notes and caveats.
---
## Citation
```bibtex
@dataset{hdx_africa_world_bank_energy_and_mining_indicators_for_ghana,
title = {Ghana - Energy and Mining},
author = {World Bank Group},
year = {2026},
url = {https://data.humdata.org/dataset/world-bank-energy-and-mining-indicators-for-ghana},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
```
---
*[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
在能源与资源经济学领域,加纳能源与矿业指标数据集源自世界银行集团的数据门户,经由人道主义数据交换平台(HDX)公开发布。该数据集由Electric Sheep Africa团队进行系统化整理,原始数据通过CKAN API获取后,经历标准化清洗流程,包括统一缺失值标记为NaN、规范列名为蛇形命名法,并转换为Parquet格式以提升存储与读取效率。为确保机器学习任务的适用性,数据按80:20的比例划分为训练集与测试集,采用固定随机种子保证分割的可复现性,最终形成包含1453条国家层面聚合记录的表格型数据集。
特点
本数据集聚焦于加纳的能源与矿业发展指标,涵盖1962年至2023年长达六十余年的时序观测,提供了矿物耗竭调整储蓄、自然资源租金占GDP比重等关键经济指标。其结构简洁明晰,共包含8个变量,其中数值型与分类型变量分布均衡,且无缺失值,确保了数据的完整性与一致性。地理范围严格限定于加纳(ISO3代码GHA),所有指标均以国家层面聚合,适合用于宏观经济趋势分析、资源依赖度评估及可持续发展政策研究,为区域性能源经济建模提供了高质量的基础数据。
使用方法
研究人员可通过Hugging Face的datasets库直接加载该数据集,利用Python环境快速导入训练集与测试集,并转换为Pandas DataFrame以进行后续分析。数据集适用于表格回归任务,可基于年份与指标代码预测经济数值,或进行时序外推建模。在使用过程中,建议结合世界银行原始方法论说明,审慎理解指标定义与采集背景,并注意数据源于国际机构统计,可能存在报告偏差或定义不一致的固有局限。该数据集经优化后兼容主流机器学习框架,支持高效的数据处理与模型训练流程。
背景与挑战
背景概述
在全球化经济与可持续发展议程交织的背景下,能源与矿产资源的管理成为国家战略规划的核心议题。世界银行集团于2026年发布了加纳能源与矿业指标数据集,由Electric Sheep Africa机构进行机器学习适配性重构。该数据集聚焦于加纳自1962年至2023年间矿物资源消耗、自然资源租金及其对国内生产总值贡献的时序统计,旨在量化资源依赖型经济体的发展轨迹与生态成本。其核心研究问题在于揭示资源开采与宏观经济表现之间的动态关联,为政策制定者与研究人员提供了评估资源可持续性与经济多元化的实证基础,对非洲区域发展研究与全球资源治理领域具有重要参考价值。
当前挑战
该数据集致力于解决资源经济学中资源租金核算与可持续发展指标建模的挑战,具体涉及矿物资源价值评估的复杂性以及资源依赖对经济增长影响的异质性分析。在构建过程中,数据整合面临原始统计口径不一致、跨年代指标定义演变以及缺失值标准化处理等难题。此外,自动化清洗流程难以修正源数据中可能存在的报告偏差或方法论局限,这要求使用者必须结合世界银行原始方法论说明进行谨慎解读,以确保分析结论的稳健性。
常用场景
经典使用场景
在能源经济学与发展研究领域,该数据集作为加纳国家层面能源与矿产指标的时序汇编,常被用于构建回归模型以分析资源依赖与宏观经济表现之间的动态关联。研究者利用其涵盖的矿物耗竭调整储蓄、自然资源租金占GDP比重等关键变量,能够深入探究资源丰裕度对经济增长、财政稳定及可持续发展路径的影响机制,为政策评估提供实证基础。
衍生相关工作
围绕该数据集衍生的经典研究包括基于面板数据模型的资源租金与经济增长门槛效应分析、矿物耗竭调整的国民财富核算方法改进,以及机器学习驱动的资源价格波动预测。这些工作通常结合世界银行其他发展指标,拓展至跨国家比较研究,促进了资源经济学与可持续发展计量学的交叉融合,为非洲资源型国家的政策模拟与风险评估提供了方法论范例。
数据集最近研究
最新研究方向
在能源与资源经济学领域,加纳的能源与矿业指标数据集正成为探索可持续发展路径的关键工具。研究者们借助此类时序数据,深入分析矿产耗竭调整储蓄、自然资源租金占GDP比重等指标,以评估资源依赖型经济体的转型潜力。当前前沿研究聚焦于构建动态预测模型,模拟能源政策与气候承诺对宏观经济的影响,尤其关注非洲国家在绿色能源转型中的公平性议题。随着全球对关键矿物供应链安全的热议,该数据集为理解资源治理、环境外部性与经济增长的复杂关联提供了实证基础,助力制定兼顾包容性与韧性的发展策略。
以上内容由遇见数据集搜集并总结生成



