electricsheepafrica/africa-world-bank-infrastructure-indicators-for-gambia-the
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-world-bank-infrastructure-indicators-for-gambia-the
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- no-annotation
language_creators:
- found
language:
- en
license: cc-by-4.0
multilinguality:
- monolingual
size_categories:
- 1K<n<10K
source_datasets:
- original
task_categories:
- tabular-classification
task_ids: []
tags:
- africa
- humanitarian
- hdx
- electric-sheep-africa
- facilities-infrastructure
- indicators
- gmb
pretty_name: "Gambia, The - Infrastructure"
dataset_info:
splits:
- name: train
num_examples: 939
- name: test
num_examples: 234
---
# Gambia, The - Infrastructure
**Publisher:** World Bank Group · **Source:** [HDX](https://data.humdata.org/dataset/world-bank-infrastructure-indicators-for-gambia-the) · **License:** `cc-by` · **Updated:** 2026-03-27
---
## Abstract
Contains data from the World Bank's [data portal](http://data.worldbank.org/). There is also a [consolidated country dataset](https://data.humdata.org/dataset/world-bank-combined-indicators-for-gambia-the) on HDX.
Infrastructure helps determine the success of manufacturing and agricultural activities. Investments in water, sanitation, energy, housing, and transport also improve lives and help reduce poverty. And new information and communication technologies promote growth, improve delivery of health and other services, expand the reach of education, and support social and cultural advances. Data here are compiled from such sources as the International Road Federation, Containerisation International, the International Civil Aviation Organization, the International Energy Association, and the International Telecommunications Union.
Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-27. Geographic scope: **GMB**.
*Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).*
---
## Dataset Characteristics
| | |
|---|---|
| **Domain** | Public health |
| **Unit of observation** | Country-level aggregates |
| **Rows (total)** | 1,174 |
| **Columns** | 8 (2 numeric, 6 categorical, 0 datetime) |
| **Train split** | 939 rows |
| **Test split** | 234 rows |
| **Geographic scope** | GMB |
| **Publisher** | World Bank Group |
| **HDX last updated** | 2026-03-27 |
---
## Variables
**Geographic** — `country_name` (Gambia, The), `country_iso3` (GMB), `year` (range 1960.0–2024.0).
**Outcome / Measurement** — `value` (range 0.0–700000000.0).
**Identifier / Metadata** — `indicator_name` (Renewable internal freshwater resources, total (billion cubic meters), Renewable internal freshwater resources per capita (cubic meters), Fixed telephone subscriptions), `indicator_code` (ER.H2O.INTR.K3, ER.H2O.INTR.PC, IT.MLT.MAIN), `esa_source` (HDX), `esa_processed` (2026-04-11).
---
## Quick Start
```python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-world-bank-infrastructure-indicators-for-gambia-the")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
```
---
## Schema
| Column | Type | Null % | Range / Sample Values |
|---|---|---|---|
| `country_name` | object | 0.0% | Gambia, The |
| `country_iso3` | object | 0.0% | GMB |
| `year` | int64 | 0.0% | 1960.0 – 2024.0 (mean 2001.6286) |
| `indicator_name` | object | 0.0% | Renewable internal freshwater resources, total (billion cubic meters), Renewable internal freshwater resources per capita (cubic meters), Fixed telephone subscriptions |
| `indicator_code` | object | 0.0% | ER.H2O.INTR.K3, ER.H2O.INTR.PC, IT.MLT.MAIN |
| `value` | float64 | 0.0% | 0.0 – 700000000.0 (mean 5542640.1079) |
| `esa_source` | object | 0.0% | HDX |
| `esa_processed` | object | 0.0% | 2026-04-11 |
---
## Numeric Summary
| Column | Min | Max | Mean | Median |
|---|---|---|---|---|
| `year` | 1960.0 | 2024.0 | 2001.6286 | 2004.0 |
| `value` | 0.0 | 700000000.0 | 5542640.1079 | 13.4281 |
---
## Curation
Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet.
---
## Limitations
- Data originates from World Bank Group and has not been independently validated by ESA.
- Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection.
- Refer to the [original HDX dataset page](https://data.humdata.org/dataset/world-bank-infrastructure-indicators-for-gambia-the) for the publisher's own methodology notes and caveats.
---
## Citation
```bibtex
@dataset{hdx_africa_world_bank_infrastructure_indicators_for_gambia_the,
title = {Gambia, The - Infrastructure},
author = {World Bank Group},
year = {2026},
url = {https://data.humdata.org/dataset/world-bank-infrastructure-indicators-for-gambia-the},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
```
---
*[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
在基础设施研究领域,数据质量直接决定了分析结果的可靠性。该数据集由世界银行集团发布,原始数据通过HDX平台获取,涵盖冈比亚自1960年至2024年的国家层面基础设施指标。数据来源于国际道路联合会、国际集装箱化组织、国际民用航空组织、国际能源署及国际电信联盟等权威机构,确保了数据的广泛性与权威性。经过Electric Sheep Africa的精心整理,原始数据通过CKAN API下载后,进行了标准化处理,包括统一列名为蛇形命名法、将常见缺失值标记转换为NaN,并采用固定随机种子按80/20比例划分为训练集与测试集,最终以Snappy压缩的Parquet格式存储,为机器学习应用提供了即用型数据支持。
特点
基础设施数据集在刻画国家发展轨迹方面具有独特价值。该数据集聚焦冈比亚,共包含1,174条记录,涵盖8个变量,其中2个为数值型,6个为分类型,无缺失值,数据完整性较高。指标涵盖可再生内陆淡水资源总量、人均可再生内陆淡水资源以及固定电话订阅数等关键维度,数值范围从0至7亿,时间跨度长达64年,能够全面反映该国基础设施的长期演变趋势。数据集已预先划分为939条训练样本和234条测试样本,便于直接用于模型开发与评估,其结构化格式与清晰的数据定义为跨领域研究提供了便利。
使用方法
在应用基础设施数据进行实证分析时,便捷的访问与处理流程至关重要。研究者可通过Hugging Face的datasets库直接加载该数据集,使用load_dataset函数并指定相应路径即可获取训练集与测试集。数据以Parquet格式存储,支持高效读取与转换,例如使用to_pandas方法可轻松转为Pandas DataFrame进行后续分析。数据集包含国家名称、ISO3代码、年份、指标名称与代码、数值及来源元数据等字段,适用于时间序列预测、分类建模或描述性统计等多种任务。用户可依据指标代码与年份维度进行筛选与聚合,以深入探究冈比亚基础设施发展的特定模式与关联因素。
背景与挑战
背景概述
基础设施指标数据集在公共健康与发展经济学领域扮演着关键角色,其构建旨在量化国家基础设施水平与经济社会发展之间的关联。该数据集由世界银行集团于2026年发布,并由Electric Sheep Africa机构进行机器学习适配化处理,聚焦于冈比亚的基础设施指标,涵盖水资源、能源及通信技术等多个维度。核心研究问题在于通过历史时序数据揭示基础设施投资对减贫、经济增长及公共服务改善的长期影响,为政策制定与学术研究提供实证依据,对非洲区域发展研究具有重要参考价值。
当前挑战
该数据集致力于解决基础设施指标分析与预测的挑战,其核心问题在于如何从异构、跨年度的国家层面数据中提取稳健模式,以支持公共政策评估。构建过程中面临多重困难:原始数据来源于国际组织如国际电信联盟等,存在定义不一致与报告偏差风险;自动化清洗流程难以纠正误报数值或采样偏差;数据集规模有限且仅覆盖单一国家,可能限制模型泛化能力。这些挑战共同凸显了在确保数据质量与一致性的前提下进行可靠分析的复杂性。
常用场景
经典使用场景
在基础设施与发展经济学领域,该数据集为冈比亚的基础设施指标提供了时序性观测数据,涵盖水资源、能源及通信等多个维度。研究者通常利用这些结构化数据,通过时间序列分析或面板数据模型,评估基础设施投资对经济增长、农业生产力及制造业发展的长期影响。经典应用场景包括构建计量经济模型,以检验基础设施完善度与区域贫困率下降之间的因果关系,为发展政策提供实证依据。
解决学术问题
该数据集有效解决了发展经济学中关于基础设施与可持续发展关联性的实证研究难题。通过提供标准化的国家层面指标,它支持学者量化基础设施在减贫、公共服务提升及环境资源管理中的作用。其意义在于填补了冈比亚等非洲国家在高质量基础设施数据方面的空白,促进了跨学科研究,如公共健康与环境科学的交叉分析,为制定基于证据的发展战略提供了数据基石。
衍生相关工作
围绕该数据集衍生的经典工作包括基于机器学习的基础设施需求预测模型,例如利用时间序列特征预测电信订阅增长趋势。在学术研究中,它常被整合进跨国比较分析,探讨非洲国家基础设施差异对经济发展的异质性影响。相关研究还扩展至环境经济学领域,如评估可再生水资源指标与气候变化适应策略的关联,推动了数据驱动的发展政策评估框架的演进。
以上内容由遇见数据集搜集并总结生成



