five

electricsheepafrica/africa-world-bank-public-sector-indicators-for-ethiopia

收藏
Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-world-bank-public-sector-indicators-for-ethiopia
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - no-annotation language_creators: - found language: - en license: cc-by-4.0 multilinguality: - monolingual size_categories: - 1K<n<10K source_datasets: - original task_categories: - tabular-classification task_ids: [] tags: - africa - humanitarian - hdx - electric-sheep-africa - economics - indicators - eth pretty_name: "Ethiopia - Public Sector" dataset_info: splits: - name: train num_examples: 2616 - name: test num_examples: 654 --- # Ethiopia - Public Sector **Publisher:** World Bank Group · **Source:** [HDX](https://data.humdata.org/dataset/world-bank-public-sector-indicators-for-ethiopia) · **License:** `cc-by` · **Updated:** 2026-03-27 --- ## Abstract Contains data from the World Bank's [data portal](http://data.worldbank.org/). There is also a [consolidated country dataset](https://data.humdata.org/dataset/world-bank-combined-indicators-for-ethiopia) on HDX. Effective governments improve people's standard of living by ensuring access to essential services – health, education, water and sanitation, electricity, transport – and the opportunity to live and work in peace and security. Data here includes World Bank staff assessments of country performance in economic management, structural policies, policies for social inclusion and equity, and public sector management and institutions for the poorest countries. Also included are indicators on revenues and expenses from the International Monetary Fund's Government Finance Statistics, and on tax policies from various sources. Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-27. Geographic scope: **ETH**. *Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).* --- ## Dataset Characteristics | | | |---|---| | **Domain** | Public health | | **Unit of observation** | Country-level aggregates | | **Rows (total)** | 3,271 | | **Columns** | 8 (2 numeric, 6 categorical, 0 datetime) | | **Train split** | 2,616 rows | | **Test split** | 654 rows | | **Geographic scope** | ETH | | **Publisher** | World Bank Group | | **HDX last updated** | 2026-03-27 | --- ## Variables **Geographic** — `country_name` (Ethiopia), `country_iso3` (ETH), `year` (range 1960.0–2024.0). **Outcome / Measurement** — `value` (range -245008500000.0–846210210200.0). **Identifier / Metadata** — `indicator_name` (Military expenditure (current USD), Military expenditure (current LCU), Military expenditure (% of GDP)), `indicator_code` (MS.MIL.XPND.CD, MS.MIL.XPND.CN, MS.MIL.XPND.GD.ZS), `esa_source` (HDX), `esa_processed` (2026-04-10). --- ## Quick Start ```python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-world-bank-public-sector-indicators-for-ethiopia") train = ds["train"].to_pandas() test = ds["test"].to_pandas() print(train.shape) train.head() ``` --- ## Schema | Column | Type | Null % | Range / Sample Values | |---|---|---|---| | `country_name` | object | 0.0% | Ethiopia | | `country_iso3` | object | 0.0% | ETH | | `year` | int64 | 0.0% | 1960.0 – 2024.0 (mean 2008.0706) | | `indicator_name` | object | 0.0% | Military expenditure (current USD), Military expenditure (current LCU), Military expenditure (% of GDP) | | `indicator_code` | object | 0.0% | MS.MIL.XPND.CD, MS.MIL.XPND.CN, MS.MIL.XPND.GD.ZS | | `value` | float64 | 0.0% | -245008500000.0 – 846210210200.0 (mean 7344120533.2775) | | `esa_source` | object | 0.0% | HDX | | `esa_processed` | object | 0.0% | 2026-04-10 | --- ## Numeric Summary | Column | Min | Max | Mean | Median | |---|---|---|---|---| | `year` | 1960.0 | 2024.0 | 2008.0706 | 2010.0 | | `value` | -245008500000.0 | 846210210200.0 | 7344120533.2775 | 14.4616 | --- ## Curation Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet. --- ## Limitations - Data originates from World Bank Group and has not been independently validated by ESA. - Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection. - Refer to the [original HDX dataset page](https://data.humdata.org/dataset/world-bank-public-sector-indicators-for-ethiopia) for the publisher's own methodology notes and caveats. --- ## Citation ```bibtex @dataset{hdx_africa_world_bank_public_sector_indicators_for_ethiopia, title = {Ethiopia - Public Sector}, author = {World Bank Group}, year = {2026}, url = {https://data.humdata.org/dataset/world-bank-public-sector-indicators-for-ethiopia}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} } ``` --- *[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
在公共部门治理与经济发展研究领域,数据质量与可获取性对于深入分析至关重要。本数据集由世界银行集团发布,原始数据通过人道主义数据交换平台获取,涵盖了埃塞俄比亚自1960年至2024年的国家层面公共部门指标。Electric Sheep Africa团队通过CKAN API下载原始数据,并执行了系统的数据清洗与标准化流程,包括统一缺失值标记、规范列名为蛇形命名法,最终将数据转换为Parquet格式。为确保机器学习任务的适用性,数据集以固定随机种子按80:20的比例划分为训练集与测试集,并采用Snappy压缩技术进行存储,从而为研究者提供了结构清晰、可直接用于建模的表格数据。
使用方法
在应用机器学习方法分析公共部门指标时,本数据集提供了便捷的接入途径。研究者可通过Hugging Face的datasets库直接加载数据集,使用load_dataset函数并指定相应路径即可获取训练集与测试集。数据以Pandas DataFrame格式呈现,便于进行探索性数据分析与特征工程。典型应用场景包括基于历史指标预测未来经济趋势,或对公共政策效果进行分类评估。用户需注意,数据来源于世界银行集团,虽经标准化处理,但原始数据可能存在报告偏差或定义不一致的情况,建议结合官方方法论说明进行解读,以确保分析结果的稳健性与可靠性。
背景与挑战
背景概述
公共部门绩效评估是发展经济学与治理研究中的核心议题,旨在通过量化指标衡量政府在经济管理、社会包容及公共服务供给等方面的效能。世界银行集团作为全球发展数据的重要生产者,长期致力于构建跨国公共部门指标体系,以支持政策分析与学术研究。该数据集由世界银行于2026年发布,并由Electric Sheep Africa机构进行机器学习友好型重构,聚焦埃塞俄比亚1960年至2024年的国家层面聚合数据,涵盖军事支出等关键财政指标。其创建为深入探究单一国家长期治理轨迹提供了结构化数据基础,尤其对非洲区域研究具有显著的实证价值。
当前挑战
该数据集致力于解决公共部门绩效的时序分析与跨国比较问题,其核心挑战在于指标定义的动态性与数据一致性。军事支出等财政指标易受汇率波动、统计口径调整及政治环境变迁影响,导致跨年度可比性降低。在构建过程中,原始数据存在缺失值标记不统一、数值范围极差悬殊等问题,自动化清洗难以修正源数据可能存在的报告偏差或方法论不一致性。此外,数据集仅涵盖单一国家,限制了其在跨国治理模式归纳中的泛化能力,且依赖世界银行的原始评估框架,未引入独立验证机制。
常用场景
经典使用场景
在公共政策与经济发展研究领域,该数据集常被用于分析埃塞俄比亚的公共部门绩效,特别是军事支出与宏观经济指标之间的动态关联。研究者利用其时间序列数据,构建计量经济模型,评估政府财政政策对经济增长、社会稳定及资源分配效率的影响。通过整合世界银行的结构性政策评估指标,该数据集为深入理解低收入国家公共治理的演变轨迹提供了实证基础。
解决学术问题
该数据集有效解决了发展经济学中关于公共部门效率衡量的核心问题,为量化评估政府经济管理、社会包容性政策及制度质量提供了标准化指标。其涵盖的军事支出占GDP比例等变量,助力学者探究国防开支与民生投入之间的权衡关系,从而深化对资源约束下政策优先序设置的理论认识,并为跨国比较研究提供了可靠的数据支撑。
实际应用
在实际应用中,该数据集被国际组织、政府智库及非营利机构用于监测埃塞俄比亚的公共财政健康状况,辅助制定减贫战略和可持续发展规划。分析师可依据军事支出趋势预测财政可持续性风险,或结合社会支出数据优化公共服务资源配置,为政策制定者提供基于证据的决策参考,以提升治理效能与民生福祉。
数据集最近研究
最新研究方向
在公共部门经济学与机器学习交叉领域,该数据集聚焦埃塞俄比亚的军事支出等宏观经济指标,为研究政府财政行为与国家安全政策提供了结构化时序数据。前沿探索方向集中于利用时间序列预测模型分析军费开支与经济增长、社会稳定的动态关联,并结合因果推断方法评估公共支出政策在低收入国家的实际效应。随着全球对非洲可持续发展目标的关注升温,此类数据集支持了针对冲突预防、资源分配公平性的量化研究,为国际组织制定精准干预策略提供了实证基础,推动了发展经济学与计算社会科学的深度融合。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务