five

electricsheepafrica/africa-world-bank-aid-effectiveness-indicators-for-ghana

收藏
Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-world-bank-aid-effectiveness-indicators-for-ghana
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - no-annotation language_creators: - found language: - en license: cc-by-4.0 multilinguality: - monolingual size_categories: - 1K<n<10K source_datasets: - original task_categories: - tabular-classification task_ids: [] tags: - africa - humanitarian - hdx - electric-sheep-africa - aid-effectiveness - indicators - gha pretty_name: "Ghana - Aid Effectiveness" dataset_info: splits: - name: train num_examples: 2164 - name: test num_examples: 541 --- # Ghana - Aid Effectiveness **Publisher:** World Bank Group · **Source:** [HDX](https://data.humdata.org/dataset/world-bank-aid-effectiveness-indicators-for-ghana) · **License:** `cc-by` · **Updated:** 2026-03-27 --- ## Abstract Contains data from the World Bank's [data portal](http://data.worldbank.org/). There is also a [consolidated country dataset](https://data.humdata.org/dataset/world-bank-combined-indicators-for-ghana) on HDX. Aid effectiveness is the impact that aid has in reducing poverty and inequality, increasing growth, building capacity, and accelerating achievement of the Millennium Development Goals set by the international community. Indicators here cover aid received as well as progress in reducing poverty and improving education, health, and other measures of human welfare. Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-27. Geographic scope: **GHA**. *Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).* --- ## Dataset Characteristics | | | |---|---| | **Domain** | Public health | | **Unit of observation** | Country-level aggregates | | **Rows (total)** | 2,705 | | **Columns** | 8 (2 numeric, 6 categorical, 0 datetime) | | **Train split** | 2,164 rows | | **Test split** | 541 rows | | **Geographic scope** | GHA | | **Publisher** | World Bank Group | | **HDX last updated** | 2026-03-27 | --- ## Variables **Geographic** — `country_name` (Ghana), `country_iso3` (GHA), `year` (range 1960.0–2025.0). **Outcome / Measurement** — `value` (range -22000000.0–5341108600.0). **Identifier / Metadata** — `indicator_name` (Net migration, Net bilateral aid flows from DAC donors, United Kingdom (current US$), Mortality rate, under-5 (per 1,000 live births)), `indicator_code` (SM.POP.NETM, DC.DAC.GBRL.CD, SH.DYN.MORT), `esa_source` (HDX), `esa_processed` (2026-04-11). --- ## Quick Start ```python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-world-bank-aid-effectiveness-indicators-for-ghana") train = ds["train"].to_pandas() test = ds["test"].to_pandas() print(train.shape) train.head() ``` --- ## Schema | Column | Type | Null % | Range / Sample Values | |---|---|---|---| | `country_name` | object | 0.0% | Ghana | | `country_iso3` | object | 0.0% | GHA | | `year` | int64 | 0.0% | 1960.0 – 2025.0 (mean 1996.8137) | | `indicator_name` | object | 0.0% | Net migration, Net bilateral aid flows from DAC donors, United Kingdom (current US$), Mortality rate, under-5 (per 1,000 live births) | | `indicator_code` | object | 0.0% | SM.POP.NETM, DC.DAC.GBRL.CD, SH.DYN.MORT | | `value` | float64 | 0.0% | -22000000.0 – 5341108600.0 (mean 101169098.2651) | | `esa_source` | object | 0.0% | HDX | | `esa_processed` | object | 0.0% | 2026-04-11 | --- ## Numeric Summary | Column | Min | Max | Mean | Median | |---|---|---|---|---| | `year` | 1960.0 | 2025.0 | 1996.8137 | 1999.0 | | `value` | -22000000.0 | 5341108600.0 | 101169098.2651 | 1375000.0 | --- ## Curation Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet. --- ## Limitations - Data originates from World Bank Group and has not been independently validated by ESA. - Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection. - Refer to the [original HDX dataset page](https://data.humdata.org/dataset/world-bank-aid-effectiveness-indicators-for-ghana) for the publisher's own methodology notes and caveats. --- ## Citation ```bibtex @dataset{hdx_africa_world_bank_aid_effectiveness_indicators_for_ghana, title = {Ghana - Aid Effectiveness}, author = {World Bank Group}, year = {2026}, url = {https://data.humdata.org/dataset/world-bank-aid-effectiveness-indicators-for-ghana}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} } ``` --- *[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
在公共健康与发展经济学领域,数据集的构建过程体现了对原始数据源的系统性整合与标准化处理。该数据集源自世界银行集团的数据门户,通过人道主义数据交换平台获取,并由Electric Sheep Africa团队进行专业化整理。原始数据经由CKAN应用程序接口下载后,经历了列名标准化与缺失值统一处理,将常见的空值标记转换为NaN格式。随后,数据集被划分为训练集与测试集,采用80/20的比例并以固定随机种子确保可复现性,最终以Snappy压缩的Parquet格式存储,为机器学习应用提供了结构化的数据基础。
特点
该数据集聚焦于加纳的援助有效性指标,涵盖了从1960年至2025年的国家层面聚合数据。其核心特征在于整合了多元化的社会经济与健康指标,例如净迁移率、双边援助流动以及五岁以下儿童死亡率等。数据集共包含2705条观测记录,涵盖8个变量,其中数值型与分类型变量分布均衡,且无缺失值,确保了数据的完整性与一致性。地理范围限定于加纳,所有指标均以标准化的代码与名称呈现,便于跨研究比较与分析。
使用方法
在应用该数据集进行实证研究或模型开发时,用户可通过Hugging Face的datasets库直接加载数据。数据集已预分为训练集与测试集,支持快速转换为Pandas DataFrame以进行探索性分析。典型的使用场景包括基于表格数据的分类任务,例如预测援助效果或评估社会经济指标的趋势。研究者可结合年份、指标代码与数值变量构建特征工程,同时需注意数据源自世界银行,建议参考原始方法论说明以理解指标定义与潜在局限。
背景与挑战
背景概述
在全球化发展议程中,援助有效性评估是国际发展合作的核心议题,旨在衡量外部援助对受援国减贫、经济增长及人类福祉提升的实际影响。世界银行集团于2026年发布的‘加纳援助有效性指标’数据集,由Electric Sheep Africa机构进行机器学习适配性重构,聚焦于加纳国家层面的聚合数据,涵盖1960年至2025年间净移民、双边援助流动、儿童死亡率等多维度指标。该数据集为发展经济学与公共政策研究提供了结构化实证基础,助力学者与决策者深入剖析援助资源分配与人类发展成果间的复杂关联,推动基于证据的国际发展策略优化。
当前挑战
该数据集致力于应对援助有效性评估中的核心挑战,即如何在多变量、长时序的国家级数据中,精准量化援助投入与人类发展指标间的因果关系,同时克服因指标定义差异、数据报告不一致及潜在抽样偏差所引发的度量难题。在构建过程中,面临原始数据来源的验证局限,如世界银行集团未独立核实的数据可靠性问题,以及自动化清洗流程难以修正的误报值与定义不一致性,这些因素均可能影响机器学习模型在分类或回归任务中的泛化性能与解释效力。
常用场景
经典使用场景
在公共健康与发展经济学领域,该数据集为评估加纳的援助有效性提供了结构化基础。其经典使用场景聚焦于时间序列分析,通过整合净移民、双边援助流动、五岁以下儿童死亡率等关键指标,研究者能够构建预测模型,量化外部援助对减贫、教育及健康成果的动态影响。这类分析通常采用回归或分类方法,揭示援助资金与人类福祉指标间的统计关联,为政策评估提供实证依据。
衍生相关工作
围绕该数据集衍生的经典工作包括多指标融合的机器学习模型,如基于时间序列的援助效果预测框架。研究者常将其与地理空间数据或社会经济调查结合,构建更全面的发展评估体系。此外,它催生了跨国家比较研究,通过标准化指标探讨加纳与其他非洲国家在援助响应机制上的异同,进而推动区域政策协调模型的开发。
数据集最近研究
最新研究方向
在公共健康与发展经济学交叉领域,加纳援助有效性指标数据集正推动前沿研究聚焦于多模态机器学习模型的构建。学者们利用该数据集中的净移民、双边援助流动及儿童死亡率等指标,探索时间序列与因果推断方法的融合,以量化国际援助对减贫与健康成果的动态影响。结合联合国可持续发展目标的热点议题,研究旨在揭示援助资源配置的效率与公平性,为政策制定提供数据驱动的决策支持,从而在非洲发展语境下深化对援助有效性的机制理解。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务