electricsheepafrica/africa-world-bank-infrastructure-indicators-for-gabon
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-world-bank-infrastructure-indicators-for-gabon
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- no-annotation
language_creators:
- found
language:
- en
license: cc-by-4.0
multilinguality:
- monolingual
size_categories:
- 1K<n<10K
source_datasets:
- original
task_categories:
- tabular-classification
task_ids: []
tags:
- africa
- humanitarian
- hdx
- electric-sheep-africa
- facilities-infrastructure
- indicators
- gab
pretty_name: "Gabon - Infrastructure"
dataset_info:
splits:
- name: train
num_examples: 1084
- name: test
num_examples: 271
---
# Gabon - Infrastructure
**Publisher:** World Bank Group · **Source:** [HDX](https://data.humdata.org/dataset/world-bank-infrastructure-indicators-for-gabon) · **License:** `cc-by` · **Updated:** 2026-03-27
---
## Abstract
Contains data from the World Bank's [data portal](http://data.worldbank.org/). There is also a [consolidated country dataset](https://data.humdata.org/dataset/world-bank-combined-indicators-for-gabon) on HDX.
Infrastructure helps determine the success of manufacturing and agricultural activities. Investments in water, sanitation, energy, housing, and transport also improve lives and help reduce poverty. And new information and communication technologies promote growth, improve delivery of health and other services, expand the reach of education, and support social and cultural advances. Data here are compiled from such sources as the International Road Federation, Containerisation International, the International Civil Aviation Organization, the International Energy Association, and the International Telecommunications Union.
Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-27. Geographic scope: **GAB**.
*Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).*
---
## Dataset Characteristics
| | |
|---|---|
| **Domain** | Public health |
| **Unit of observation** | Country-level aggregates |
| **Rows (total)** | 1,355 |
| **Columns** | 8 (2 numeric, 6 categorical, 0 datetime) |
| **Train split** | 1,084 rows |
| **Test split** | 271 rows |
| **Geographic scope** | GAB |
| **Publisher** | World Bank Group |
| **HDX last updated** | 2026-03-27 |
---
## Variables
**Geographic** — `country_name` (Gabon), `country_iso3` (GAB), `year` (range 1960.0–2024.0).
**Outcome / Measurement** — `value` (range 0.0–114067000000.0).
**Identifier / Metadata** — `indicator_name` (Renewable internal freshwater resources, total (billion cubic meters), Renewable internal freshwater resources per capita (cubic meters), Mobile cellular subscriptions (per 100 people)), `indicator_code` (ER.H2O.INTR.K3, ER.H2O.INTR.PC, IT.CEL.SETS.P2), `esa_source` (HDX), `esa_processed` (2026-04-11).
---
## Quick Start
```python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-world-bank-infrastructure-indicators-for-gabon")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
```
---
## Schema
| Column | Type | Null % | Range / Sample Values |
|---|---|---|---|
| `country_name` | object | 0.0% | Gabon |
| `country_iso3` | object | 0.0% | GAB |
| `year` | int64 | 0.0% | 1960.0 – 2024.0 (mean 2001.8576) |
| `indicator_name` | object | 0.0% | Renewable internal freshwater resources, total (billion cubic meters), Renewable internal freshwater resources per capita (cubic meters), Mobile cellular subscriptions (per 100 people) |
| `indicator_code` | object | 0.0% | ER.H2O.INTR.K3, ER.H2O.INTR.PC, IT.CEL.SETS.P2 |
| `value` | float64 | 0.0% | 0.0 – 114067000000.0 (mean 922488005.9388) |
| `esa_source` | object | 0.0% | HDX |
| `esa_processed` | object | 0.0% | 2026-04-11 |
---
## Numeric Summary
| Column | Min | Max | Mean | Median |
|---|---|---|---|---|
| `year` | 1960.0 | 2024.0 | 2001.8576 | 2003.0 |
| `value` | 0.0 | 114067000000.0 | 922488005.9388 | 55.4202 |
---
## Curation
Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet.
---
## Limitations
- Data originates from World Bank Group and has not been independently validated by ESA.
- Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection.
- Refer to the [original HDX dataset page](https://data.humdata.org/dataset/world-bank-infrastructure-indicators-for-gabon) for the publisher's own methodology notes and caveats.
---
## Citation
```bibtex
@dataset{hdx_africa_world_bank_infrastructure_indicators_for_gabon,
title = {Gabon - Infrastructure},
author = {World Bank Group},
year = {2026},
url = {https://data.humdata.org/dataset/world-bank-infrastructure-indicators-for-gabon},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
```
---
*[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
在基础设施数据领域,该数据集由世界银行集团发布,通过人道主义数据交换平台获取原始信息。构建过程涉及从国际道路联合会、国际集装箱化组织、国际民用航空组织、国际能源署和国际电信联盟等多个权威机构汇编加蓬国家层面的基础设施指标。原始数据经由Electric Sheep Africa团队进行标准化处理,包括列名转换为蛇形命名法、统一缺失值标记为NaN,并采用固定随机种子将数据按80/20比例划分为训练集和测试集,最终以Snappy压缩的Parquet格式存储,确保数据可直接用于机器学习流程。
特点
该数据集聚焦于加蓬的基础设施发展状况,涵盖水资源、能源、通信等多个关键领域。其核心特征在于提供了1960年至2024年间国家层面的聚合数据,包含1355条观测记录和8个变量,其中数值型和分类型变量分布均衡。数据经过精心清洗,缺失值统一处理,确保了较高的数据完整性。数据集以结构化表格形式呈现,便于进行时间序列分析和跨指标比较,为研究基础设施与经济社会发展关系提供了高质量、跨年代的实证基础。
使用方法
在应用层面,该数据集适用于表格分类等机器学习任务,用户可通过Hugging Face的datasets库直接加载。加载后,训练集和测试集可便捷转换为Pandas DataFrame进行探索性分析。数据集中包含年份、指标名称和数值等关键字段,支持对加蓬基础设施指标的长期趋势建模和预测。研究者可基于此数据集构建回归或分类模型,评估基础设施指标与宏观经济变量间的关联,同时需注意参考原始发布方的方法论说明以确保分析结果的稳健性。
背景与挑战
背景概述
基础设施作为国家经济与社会发展的基石,其量化评估对于理解区域发展动态至关重要。世界银行集团长期致力于全球发展数据的收集与发布,其基础设施指标数据集为研究提供了权威的宏观视角。该数据集由世界银行集团创建,并由Electric Sheep Africa于2026年重新整理为机器学习可用格式,聚焦于加蓬的基础设施发展状况。数据集涵盖了从1960年至2024年的国家层面聚合数据,核心研究问题在于通过淡水资源、移动通信订阅率等关键指标,揭示基础设施投资与减贫、经济增长及公共服务改善之间的内在联系。此类数据为发展经济学、公共政策分析与区域研究领域提供了实证基础,有助于推动基于证据的决策制定。
当前挑战
该数据集旨在解决基础设施发展水平评估与预测这一领域问题,其核心挑战在于如何从有限的国家级宏观数据中,准确捕捉基础设施多维度指标(如水资源、能源、通信)的长期演变规律及其对经济社会影响的复杂机制。构建过程中的挑战则主要源于原始数据的异构性与质量不确定性:数据来源于国际道路联合会、国际电信联盟等多个国际组织,不同来源的统计口径、定义标准与收集频率可能存在不一致,导致跨指标与跨时间可比性受限;同时,自动化清洗流程难以修正原始数据中可能存在的误报值或抽样偏差,这要求后续分析必须谨慎处理数据局限性。
常用场景
经典使用场景
在基础设施发展研究领域,该数据集为加蓬的基础设施指标提供了时序性观测数据,涵盖水资源、能源及通信等多个维度。研究者通常利用这些结构化数据,构建时间序列模型或回归分析框架,以揭示基础设施投资与经济社会发展之间的动态关联。例如,通过分析移动通信订阅率与年份的关系,可以评估数字鸿沟的演变趋势,为政策制定提供实证依据。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,包括利用机器学习方法预测基础设施需求缺口,以及构建综合发展指数以衡量加蓬的可持续发展水平。部分研究进一步整合了该数据集与其他社会经济指标,开展面板数据分析,探索基础设施投资与人力资本积累之间的交互效应,为跨学科的政策模拟研究提供了可靠的数据基础。
数据集最近研究
最新研究方向
在基础设施与发展经济学领域,加蓬基础设施指标数据集正推动前沿研究聚焦于可持续资源管理与数字包容性。学者们利用该数据集的时间序列特征,探索淡水资源的动态变化与移动通信普及率之间的耦合关系,以评估基础设施投资对生态环境与社会福祉的协同效应。当前研究热点紧密关联联合国可持续发展目标,特别是清洁水与卫生设施以及产业创新和基础设施的推进,通过机器学习模型预测资源承载力与通信技术扩散路径,为政策制定提供量化依据。这类研究不仅深化了对中非国家转型路径的理解,也为区域性的气候适应与数字转型战略提供了实证基础。
以上内容由遇见数据集搜集并总结生成



