five

electricsheepafrica/africa-world-bank-public-sector-indicators-for-guinea

收藏
Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-world-bank-public-sector-indicators-for-guinea
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - no-annotation language_creators: - found language: - en license: cc-by-4.0 multilinguality: - monolingual size_categories: - 1K<n<10K source_datasets: - original task_categories: - tabular-classification task_ids: [] tags: - africa - humanitarian - hdx - electric-sheep-africa - economics - indicators - gin pretty_name: "Guinea - Public Sector" dataset_info: splits: - name: train num_examples: 1466 - name: test num_examples: 366 --- # Guinea - Public Sector **Publisher:** World Bank Group · **Source:** [HDX](https://data.humdata.org/dataset/world-bank-public-sector-indicators-for-guinea) · **License:** `cc-by` · **Updated:** 2026-03-27 --- ## Abstract Contains data from the World Bank's [data portal](http://data.worldbank.org/). There is also a [consolidated country dataset](https://data.humdata.org/dataset/world-bank-combined-indicators-for-guinea) on HDX. Effective governments improve people's standard of living by ensuring access to essential services – health, education, water and sanitation, electricity, transport – and the opportunity to live and work in peace and security. Data here includes World Bank staff assessments of country performance in economic management, structural policies, policies for social inclusion and equity, and public sector management and institutions for the poorest countries. Also included are indicators on revenues and expenses from the International Monetary Fund's Government Finance Statistics, and on tax policies from various sources. Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-27. Geographic scope: **GIN**. *Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).* --- ## Dataset Characteristics | | | |---|---| | **Domain** | Public health | | **Unit of observation** | Country-level aggregates | | **Rows (total)** | 1,833 | | **Columns** | 8 (2 numeric, 6 categorical, 0 datetime) | | **Train split** | 1,466 rows | | **Test split** | 366 rows | | **Geographic scope** | GIN | | **Publisher** | World Bank Group | | **HDX last updated** | 2026-03-27 | --- ## Variables **Geographic** — `country_name` (Guinea), `country_iso3` (GIN), `year` (range 1960.0–2024.0). **Outcome / Measurement** — `value` (range -84665000000.0–4844135000000.0). **Identifier / Metadata** — `indicator_name` (Arms imports (SIPRI trend indicator values), Military expenditure (current USD), Military expenditure (current LCU)), `indicator_code` (MS.MIL.MPRT.KD, MS.MIL.XPND.CD, MS.MIL.XPND.CN), `esa_source` (HDX), `esa_processed` (2026-04-11). --- ## Quick Start ```python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-world-bank-public-sector-indicators-for-guinea") train = ds["train"].to_pandas() test = ds["test"].to_pandas() print(train.shape) train.head() ``` --- ## Schema | Column | Type | Null % | Range / Sample Values | |---|---|---|---| | `country_name` | object | 0.0% | Guinea | | `country_iso3` | object | 0.0% | GIN | | `year` | int64 | 0.0% | 1960.0 – 2024.0 (mean 2009.1642) | | `indicator_name` | object | 0.0% | Arms imports (SIPRI trend indicator values), Military expenditure (current USD), Military expenditure (current LCU) | | `indicator_code` | object | 0.0% | MS.MIL.MPRT.KD, MS.MIL.XPND.CD, MS.MIL.XPND.CN | | `value` | float64 | 0.0% | -84665000000.0 – 4844135000000.0 (mean 20358334003.4972) | | `esa_source` | object | 0.0% | HDX | | `esa_processed` | object | 0.0% | 2026-04-11 | --- ## Numeric Summary | Column | Min | Max | Mean | Median | |---|---|---|---|---| | `year` | 1960.0 | 2024.0 | 2009.1642 | 2011.0 | | `value` | -84665000000.0 | 4844135000000.0 | 20358334003.4972 | 5.0 | --- ## Curation Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet. --- ## Limitations - Data originates from World Bank Group and has not been independently validated by ESA. - Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection. - Refer to the [original HDX dataset page](https://data.humdata.org/dataset/world-bank-public-sector-indicators-for-guinea) for the publisher's own methodology notes and caveats. --- ## Citation ```bibtex @dataset{hdx_africa_world_bank_public_sector_indicators_for_guinea, title = {Guinea - Public Sector}, author = {World Bank Group}, year = {2026}, url = {https://data.humdata.org/dataset/world-bank-public-sector-indicators-for-guinea}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} } ``` --- *[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
在公共部门治理与经济发展研究领域,数据质量直接决定了分析结论的可靠性。本数据集由世界银行集团发布,原始数据通过其官方数据门户获取,并由Electric Sheep Africa团队进行专业化整理。构建过程始于从人道主义数据交换平台通过CKAN API下载原始资料,随后执行系统的数据清洗与标准化操作,包括统一列名为蛇形命名法、将各类缺失值标记规范为NaN。最终,采用固定随机种子将总计1833条国家层面聚合数据按80:20的比例划分为训练集与测试集,并以Snappy压缩的Parquet格式存储,确保了数据的机器学习就绪状态。
使用方法
在应用机器学习方法分析社会经济指标时,便捷的数据接入与处理流程至关重要。研究者可通过Hugging Face的`datasets`库直接加载该数据集,利用`load_dataset`函数并指定相应仓库路径即可获取已分割的训练集与测试集。加载后的数据可轻松转换为Pandas DataFrame以进行后续的探索性分析或模型训练。数据集适用于表格分类等任务,使用者应关注其数值型变量`value`的巨大量级范围,并在建模前考虑进行适当的尺度缩放。同时,建议用户结合世界银行原始方法论说明,以充分理解指标定义与潜在局限。
背景与挑战
背景概述
在公共管理与经济发展研究领域,量化评估国家公共部门效能是理解治理质量与政策影响的关键。世界银行集团作为全球发展数据的重要提供者,长期致力于构建跨国公共部门指标体系,以监测各国在经济管理、结构性政策、社会包容及公共机构管理等方面的表现。该数据集由Electric Sheep Africa于2026年整理发布,聚焦几内亚(GIN)1960年至2024年的公共部门指标,涵盖军事开支、武器进口等核心变量,旨在为机器学习应用提供结构化数据支持。其发布不仅丰富了非洲国家治理研究的实证基础,也为政策分析与预测模型构建提供了标准化数据资源。
当前挑战
该数据集致力于解决公共部门效能量化评估中的复杂挑战,其核心在于如何通过有限指标准确捕捉国家治理的动态演变与多维特征。具体而言,指标覆盖范围相对狭窄,主要集中于军事领域,可能难以全面反映公共部门在卫生、教育、基础设施等关键服务领域的绩效。在构建过程中,数据源自世界银行集团的聚合统计,面临原始数据报告不一致、定义差异以及潜在采样偏差等问题。尽管经过自动化清洗与标准化处理,但数据本身固有的方法论局限与验证缺失,仍可能影响后续分析的可靠性与跨期可比性。
常用场景
经典使用场景
在公共部门管理与经济学研究领域,该数据集为分析几内亚的军事开支与武器进口趋势提供了结构化基础。研究者常利用这些时间序列数据,构建回归模型或时间序列预测框架,以揭示国家财政资源在国防领域的分配规律及其年度波动特征。通过整合世界银行与国际货币基金组织的权威指标,该数据集支持对公共部门效率与资源配置的量化评估,为政策制定者提供数据驱动的决策依据。
解决学术问题
该数据集有效解决了发展经济学与公共政策研究中关于资源分配透明度的关键问题。通过提供标准化的军事支出与武器进口指标,它使学者能够系统评估几内亚公共部门的财政优先顺序,并探究国防投资与社会经济发展指标间的潜在关联。这些数据有助于识别财政管理中的结构性矛盾,为理解低收入国家在有限预算下平衡安全与发展需求的学术讨论提供实证基础。
实际应用
在实际应用层面,该数据集被国际组织、政府机构与非营利组织用于监测几内亚的公共财政健康状况。分析师可依据军事开支的时序变化评估该国安全政策的持续性,并结合宏观经济指标预测财政可持续性风险。这些洞察支持人道主义援助的精准规划,帮助决策者在资源分配中权衡国防需求与民生投入,促进更具韧性的公共治理体系构建。
数据集最近研究
最新研究方向
在公共部门治理与经济发展领域,几内亚世界银行公共部门指标数据集正成为探索政府效能与军事开支关联性的关键资源。前沿研究聚焦于利用机器学习模型分析军事支出动态对宏观经济稳定的影响,结合时间序列预测方法评估财政资源配置效率。当前热点事件如区域安全形势变化促使学者深入挖掘武装进口与国防预算的长期趋势,旨在揭示公共资源管理在脆弱国家中的结构性挑战。这类研究不仅为政策制定提供数据驱动的洞察,也推动了发展经济学中关于治理透明度和可持续增长的理论深化。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务