five

electricsheepafrica/africa-world-bank-infrastructure-indicators-for-ghana

收藏
Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-world-bank-infrastructure-indicators-for-ghana
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - no-annotation language_creators: - found language: - en license: cc-by-4.0 multilinguality: - monolingual size_categories: - 1K<n<10K source_datasets: - original task_categories: - tabular-classification task_ids: [] tags: - africa - humanitarian - hdx - electric-sheep-africa - facilities-infrastructure - indicators - gha pretty_name: "Ghana - Infrastructure" dataset_info: splits: - name: train num_examples: 1218 - name: test num_examples: 304 --- # Ghana - Infrastructure **Publisher:** World Bank Group · **Source:** [HDX](https://data.humdata.org/dataset/world-bank-infrastructure-indicators-for-ghana) · **License:** `cc-by` · **Updated:** 2026-03-27 --- ## Abstract Contains data from the World Bank's [data portal](http://data.worldbank.org/). There is also a [consolidated country dataset](https://data.humdata.org/dataset/world-bank-combined-indicators-for-ghana) on HDX. Infrastructure helps determine the success of manufacturing and agricultural activities. Investments in water, sanitation, energy, housing, and transport also improve lives and help reduce poverty. And new information and communication technologies promote growth, improve delivery of health and other services, expand the reach of education, and support social and cultural advances. Data here are compiled from such sources as the International Road Federation, Containerisation International, the International Civil Aviation Organization, the International Energy Association, and the International Telecommunications Union. Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-27. Geographic scope: **GHA**. *Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).* --- ## Dataset Characteristics | | | |---|---| | **Domain** | Public health | | **Unit of observation** | Country-level aggregates | | **Rows (total)** | 1,523 | | **Columns** | 8 (2 numeric, 6 categorical, 0 datetime) | | **Train split** | 1,218 rows | | **Test split** | 304 rows | | **Geographic scope** | GHA | | **Publisher** | World Bank Group | | **HDX last updated** | 2026-03-27 | --- ## Variables **Geographic** — `country_name` (Ghana), `country_iso3` (GHA), `year` (range 1960.0–2024.0). **Outcome / Measurement** — `value` (range 0.0–1015000000000.0). **Identifier / Metadata** — `indicator_name` (Renewable internal freshwater resources per capita (cubic meters), Renewable internal freshwater resources, total (billion cubic meters), Fixed telephone subscriptions), `indicator_code` (ER.H2O.INTR.PC, ER.H2O.INTR.K3, IT.MLT.MAIN), `esa_source` (HDX), `esa_processed` (2026-04-11). --- ## Quick Start ```python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-world-bank-infrastructure-indicators-for-ghana") train = ds["train"].to_pandas() test = ds["test"].to_pandas() print(train.shape) train.head() ``` --- ## Schema | Column | Type | Null % | Range / Sample Values | |---|---|---|---| | `country_name` | object | 0.0% | Ghana | | `country_iso3` | object | 0.0% | GHA | | `year` | int64 | 0.0% | 1960.0 – 2024.0 (mean 1999.6074) | | `indicator_name` | object | 0.0% | Renewable internal freshwater resources per capita (cubic meters), Renewable internal freshwater resources, total (billion cubic meters), Fixed telephone subscriptions | | `indicator_code` | object | 0.0% | ER.H2O.INTR.PC, ER.H2O.INTR.K3, IT.MLT.MAIN | | `value` | float64 | 0.0% | 0.0 – 1015000000000.0 (mean 3300876181.3986) | | `esa_source` | object | 0.0% | HDX | | `esa_processed` | object | 0.0% | 2026-04-11 | --- ## Numeric Summary | Column | Min | Max | Mean | Median | |---|---|---|---|---| | `year` | 1960.0 | 2024.0 | 1999.6074 | 2001.0 | | `value` | 0.0 | 1015000000000.0 | 3300876181.3986 | 30.3 | --- ## Curation Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet. --- ## Limitations - Data originates from World Bank Group and has not been independently validated by ESA. - Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection. - Refer to the [original HDX dataset page](https://data.humdata.org/dataset/world-bank-infrastructure-indicators-for-ghana) for the publisher's own methodology notes and caveats. --- ## Citation ```bibtex @dataset{hdx_africa_world_bank_infrastructure_indicators_for_ghana, title = {Ghana - Infrastructure}, author = {World Bank Group}, year = {2026}, url = {https://data.humdata.org/dataset/world-bank-infrastructure-indicators-for-ghana}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} } ``` --- *[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*

annotations_creators: - 无注释(no-annotation) language_creators: - 发现式采集(found) language: - 英语(en) license: cc-by-4.0 multilinguality: - 单语(monolingual) size_categories: - 1000条至10000条(1K<n<10K) source_datasets: - 原始数据集(original) task_categories: - 表格分类(tabular-classification) task_ids: [] tags: - 非洲 - 人道主义 - HDX(HDX) - Electric Sheep Africa(Electric Sheep Africa) - 设施与基础设施 - 指标 - GHA pretty_name: "加纳——基础设施" dataset_info: splits: - name: 训练集(train) num_examples: 1218 - name: 测试集(test) num_examples: 304 # 加纳——基础设施 **发布方:世界银行集团(World Bank Group)** · **来源:[HDX(HDX)](https://data.humdata.org/dataset/world-bank-infrastructure-indicators-for-ghana)** · **许可证:`cc-by`** · **最后更新:2026-03-27** --- ## 摘要 本数据集包含来自世界银行[数据门户(http://data.worldbank.org)]的公开数据。HDX平台上另有一份[加纳综合国家数据集(https://data.humdata.org/dataset/world-bank-combined-indicators-for-ghana)]。 基础设施水平是决定制造业与农业活动成败的核心因素。在供水、卫生、能源、住房与交通领域的投资,不仅能够改善民众生活质量,还可助力减贫事业发展。新兴信息与通信技术则能够推动经济增长,优化医疗及其他公共服务的交付效率,拓展教育覆盖范围,并支撑社会与文化进步。 本数据集的数据源自国际道路联合会、国际集装箱化协会、国际民用航空组织、国际能源署以及国际电信联盟等权威机构。数据集中的每一行均代表国家级聚合统计结果。本数据集最后一次在HDX平台更新的时间为2026-03-27。地理覆盖范围:**GHA(加纳)**。 本数据集由[Electric Sheep Africa(https://huggingface.co/electricsheepafrica)]整理为机器学习可用的Parquet(Parquet)格式。 --- ## 数据集特征 | | | |---|---| | **研究领域** | 公共卫生 | | **观测单元** | 国家级聚合统计结果 | | **总行数** | 1523 | | **列数** | 8列(2个数值型列、6个分类型列、0个日期时间型列) | | **训练集划分** | 1218条数据 | | **测试集划分** | 304条数据 | | **地理覆盖范围** | GHA | | **发布方** | 世界银行集团(World Bank Group) | | **HDX平台最后更新时间** | 2026-03-27 | --- ## 变量说明 **地理标识变量** — `country_name`(国家名称:加纳), `country_iso3`(国家ISO3代码:GHA), `year`(年份:取值范围1960.0–2024.0)。 **结果/测量变量** — `value`(指标数值:取值范围0.0–1015000000000.0)。 **标识符/元数据变量** — `indicator_name`(指标名称:人均可再生内陆淡水资源(立方米)、可再生内陆淡水资源总量(十亿立方米)、固定电话订阅数), `indicator_code`(指标代码:ER.H2O.INTR.PC, ER.H2O.INTR.K3, IT.MLT.MAIN), `esa_source`(数据集来源:HDX), `esa_processed`(数据处理时间:2026-04-11)。 --- ## 快速上手 python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-world-bank-infrastructure-indicators-for-ghana") train = ds["train"].to_pandas() test = ds["test"].to_pandas() print(train.shape) train.head() --- ## 数据模式 | 列名 | 数据类型 | 空值占比 | 取值范围/示例值 | |---|---|---|---| | `country_name` | 字符型(object) | 0.0% | 加纳 | | `country_iso3` | 字符型(object) | 0.0% | GHA | | `year` | 64位整型(int64) | 0.0% | 1960.0 – 2024.0(均值1999.6074) | | `indicator_name` | 字符型(object) | 0.0% | 人均可再生内陆淡水资源(立方米)、可再生内陆淡水资源总量(十亿立方米)、固定电话订阅数 | | `indicator_code` | 字符型(object) | 0.0% | ER.H2O.INTR.PC, ER.H2O.INTR.K3, IT.MLT.MAIN | | `value` | 64位浮点型(float64) | 0.0% | 0.0 – 1015000000000.0(均值3300876181.3986) | | `esa_source` | 字符型(object) | 0.0% | HDX | | `esa_processed` | 字符型(object) | 0.0% | 2026-04-11 | --- ## 数值型变量统计摘要 | 列名 | 最小值 | 最大值 | 均值 | 中位数 | |---|---|---|---|---| | `year` | 1960.0 | 2024.0 | 1999.6074 | 2001.0 | | `value` | 0.0 | 1015000000000.0 | 3300876181.3986 | 30.3 | --- ## 数据整理流程 原始数据通过CKAN API(CKAN API)从HDX平台下载,并转换为Parquet(Parquet)格式。列名统一转换为小写并采用蛇形命名法(snake_case)进行标准化。常见缺失值标记(`N/A`、`null`、`none`、`-`、`unknown`、`no data`、`#N/A`)被统一替换为`NaN`。本数据集以固定随机种子(42)按照80/20的比例划分为训练集与测试集,并以Snappy(Snappy)压缩的Parquet格式存储。 --- ## 数据集局限性 - 数据源自世界银行集团,未由Electric Sheep Africa(Electric Sheep Africa)进行独立验证。 - 自动化清洗流程无法修正原始数据收集中的错报值、定义不一致或抽样偏差问题。 - 如需查看发布方提供的方法学说明与注意事项,请参阅[原始HDX数据集页面(https://data.humdata.org/dataset/world-bank-infrastructure-indicators-for-ghana)]。 --- ## 引用格式 bibtex @dataset{hdx_africa_world_bank_infrastructure_indicators_for_ghana, title = {Ghana - Infrastructure}, author = {World Bank Group}, year = {2026}, url = {https://data.humdata.org/dataset/world-bank-infrastructure-indicators-for-ghana}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} } --- *[Electric Sheep Africa(https://huggingface.co/electricsheepafrica)]——非洲机器学习数据集基础设施提供商,尼日利亚拉各斯。*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
在基础设施研究领域,数据质量直接影响政策分析与学术研究的深度。该数据集源自世界银行集团,通过其数据门户系统性地采集了加纳自1960年至2024年的国家层面基础设施指标。原始数据经由人道主义数据交换平台发布,并由Electric Sheep Africa团队进行专业化处理,通过CKAN API获取后,进行了统一的格式转换与清洗。具体步骤包括将列名标准化为蛇形命名法,统一缺失值标记为NaN,并采用固定随机种子将数据按80/20的比例划分为训练集与测试集,最终以Snappy压缩的Parquet格式存储,确保了数据的机器学习可用性与结构一致性。
特点
本数据集聚焦于加纳的基础设施发展轨迹,其核心特征体现在多维度的指标覆盖与时间跨度上。数据集共包含1,523条观测记录,涵盖8个变量,其中既包括年份、国家标识等地理维度,也纳入了人均可再生内陆淡水资源、固定电话订阅量等关键基础设施指标。数据的时间范围跨越六十余年,为纵向研究提供了丰富的时间序列基础。值得注意的是,所有字段均无缺失值,且已预先划分为1,218条训练样本与304条测试样本,这种严谨的划分方式为模型开发与验证提供了即用的基准。数据集以结构化表格形式呈现,兼具数值型与分类型变量,便于直接应用于表格分类等机器学习任务。
使用方法
为便于研究人员快速开展分析,该数据集已集成至Hugging Face平台,可通过`datasets`库直接加载。使用者只需调用`load_dataset`函数并指定相应路径,即可获取包含训练与测试分割的数据对象。加载后的数据可轻松转换为Pandas DataFrame,以利用其丰富的数据操作功能进行探索性分析或特征工程。数据集的设计支持对加纳基础设施指标的长期趋势建模、跨指标关联性分析,以及基于历史数据的预测任务。在应用时,建议参考原始发布方的方法论说明,并留意数据源自聚合统计可能存在的定义一致性局限,以确保分析结论的稳健性。
背景与挑战
背景概述
基础设施发展是衡量国家经济活力与社会福祉的关键维度,尤其对于非洲国家而言,其在推动农业与制造业成功、改善民生及减贫方面扮演着核心角色。世界银行集团于2026年发布了加纳基础设施指标数据集,由Electric Sheep Africa机构进行机器学习友好型重构,旨在系统化追踪该国在水资源、能源、交通及通信等关键领域的长期表现。该数据集汇集了自1960年至2024年的国家层面聚合数据,涵盖可再生淡水资源、固定电话订阅量等多元指标,为发展经济学、公共政策及区域研究提供了宝贵的纵向观测资料。其结构化设计不仅支持表格分类任务,更促进了跨学科实证分析的深入开展。
当前挑战
该数据集致力于应对发展研究中基础设施评估的复杂性挑战,其核心在于从异构且跨年代的全球数据源中提取一致、可比的度量标准。构建过程中,数据整合面临原始指标定义不一致、报告缺失值标记多样以及跨机构统计口径差异等难题,需通过自动化清洗流程统一处理。此外,机器学习应用需克服数值跨度极大、时间序列不完整以及类别变量稀疏性带来的建模障碍,而数据本身未经验证可能隐含报告偏差或方法学局限,要求研究者审慎解读分析结果。
常用场景
经典使用场景
在基础设施与经济发展研究领域,该数据集为分析加纳基础设施指标的时间演变提供了关键数据支撑。研究者常利用其包含的可再生淡水资源、固定电话订阅等指标,构建时间序列模型,评估基础设施投资对农业与制造业活动的长期影响。通过整合世界银行等多源数据,该数据集支持跨年度对比分析,揭示基础设施发展轨迹与经济增长之间的动态关联。
解决学术问题
该数据集有效解决了发展经济学中关于基础设施量化评估的学术难题。通过提供标准化的国家层面聚合数据,研究者能够系统检验基础设施投资与减贫、公共服务改善之间的因果关系。其涵盖的1960年至2024年时间跨度,为纵向研究提供了连续观测基础,助力突破传统横截面数据的局限性,深化对基础设施多维效益的理论认知。
衍生相关工作
该数据集衍生了多项聚焦非洲基础设施的经典研究。例如,学者利用其构建面板数据模型,探究电信基础设施对加纳教育服务可达性的影响;另有研究整合多国指标数据集,开展西非区域基础设施协同发展比较分析。这些工作进一步催生了基于机器学习的设施需求预测框架,推动了发展经济学与计算社会科学的交叉创新。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务