five

electricsheepafrica/africa-world-bank-public-sector-indicators-for-south-sudan

收藏
Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-world-bank-public-sector-indicators-for-south-sudan
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - no-annotation language_creators: - found language: - en license: cc-by-4.0 multilinguality: - monolingual size_categories: - 1K<n<10K source_datasets: - original task_categories: - tabular-classification task_ids: [] tags: - africa - humanitarian - hdx - electric-sheep-africa - economics - indicators - ssd pretty_name: "South Sudan - Public Sector" dataset_info: splits: - name: train num_examples: 804 - name: test num_examples: 201 --- # South Sudan - Public Sector **Publisher:** World Bank Group · **Source:** [HDX](https://data.humdata.org/dataset/world-bank-public-sector-indicators-for-south-sudan) · **License:** `cc-by` · **Updated:** 2026-03-27 --- ## Abstract Contains data from the World Bank's [data portal](http://data.worldbank.org/). There is also a [consolidated country dataset](https://data.humdata.org/dataset/world-bank-combined-indicators-for-south-sudan) on HDX. Effective governments improve people's standard of living by ensuring access to essential services – health, education, water and sanitation, electricity, transport – and the opportunity to live and work in peace and security. Data here includes World Bank staff assessments of country performance in economic management, structural policies, policies for social inclusion and equity, and public sector management and institutions for the poorest countries. Also included are indicators on revenues and expenses from the International Monetary Fund's Government Finance Statistics, and on tax policies from various sources. Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-27. Geographic scope: **SSD**. *Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).* --- ## Dataset Characteristics | | | |---|---| | **Domain** | Public health | | **Unit of observation** | Country-level aggregates | | **Rows (total)** | 1,005 | | **Columns** | 8 (2 numeric, 6 categorical, 0 datetime) | | **Train split** | 804 rows | | **Test split** | 201 rows | | **Geographic scope** | SSD | | **Publisher** | World Bank Group | | **HDX last updated** | 2026-03-27 | --- ## Variables **Geographic** — `country_name` (South Sudan), `country_iso3` (SSD), `year` (range 2004.0–2024.0). **Outcome / Measurement** — `value` (range -2.6466–264153000000.0). **Identifier / Metadata** — `indicator_name` (Statistical performance indicators (SPI): Pillar 1 data use score (scale 0-100), Statistical performance indicators (SPI): Pillar 3 data products score (scale 0-100), Military expenditure (current USD)), `indicator_code` (IQ.SPI.PIL1, IQ.SPI.PIL3, MS.MIL.XPND.CD), `esa_source` (HDX), `esa_processed` (2026-04-10). --- ## Quick Start ```python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-world-bank-public-sector-indicators-for-south-sudan") train = ds["train"].to_pandas() test = ds["test"].to_pandas() print(train.shape) train.head() ``` --- ## Schema | Column | Type | Null % | Range / Sample Values | |---|---|---|---| | `country_name` | object | 0.0% | South Sudan | | `country_iso3` | object | 0.0% | SSD | | `year` | int64 | 0.0% | 2004.0 – 2024.0 (mean 2017.0308) | | `indicator_name` | object | 0.0% | Statistical performance indicators (SPI): Pillar 1 data use score (scale 0-100), Statistical performance indicators (SPI): Pillar 3 data products score (scale 0-100), Military expenditure (current USD) | | `indicator_code` | object | 0.0% | IQ.SPI.PIL1, IQ.SPI.PIL3, MS.MIL.XPND.CD | | `value` | float64 | 0.0% | -2.6466 – 264153000000.0 (mean 612016496.4682) | | `esa_source` | object | 0.0% | HDX | | `esa_processed` | object | 0.0% | 2026-04-10 | --- ## Numeric Summary | Column | Min | Max | Mean | Median | |---|---|---|---|---| | `year` | 2004.0 | 2024.0 | 2017.0308 | 2017.0 | | `value` | -2.6466 | 264153000000.0 | 612016496.4682 | 2.0 | --- ## Curation Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet. --- ## Limitations - Data originates from World Bank Group and has not been independently validated by ESA. - Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection. - Refer to the [original HDX dataset page](https://data.humdata.org/dataset/world-bank-public-sector-indicators-for-south-sudan) for the publisher's own methodology notes and caveats. --- ## Citation ```bibtex @dataset{hdx_africa_world_bank_public_sector_indicators_for_south_sudan, title = {South Sudan - Public Sector}, author = {World Bank Group}, year = {2026}, url = {https://data.humdata.org/dataset/world-bank-public-sector-indicators-for-south-sudan}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} } ``` --- *[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界银行集团的公开数据门户,经由人道主义数据交换(HDX)平台获取原始数据。数据经由Electric Sheep Africa团队进行精心清洗与标准化处理:通过CKAN API下载后转换为Parquet格式,列名统一为小写蛇形命名法,并将常见的缺失值标记(如N/A、null、none等)统一替换为NaN。最终,采用固定随机种子(42)将数据集以80/20比例划分为训练集(804条)与测试集(201条),并保存为Snappy压缩的Parquet文件,以提升存储与读取效率。
特点
该数据集聚焦于南苏丹的公共部门治理指标,涵盖经济管理、结构性政策、社会包容与公平以及公共部门管理等领域的综合评估数据。数据集包含1005个样本、8个特征列,其中涵盖2个数值型变量(如统计绩效指标得分、军费开支)与6个分类型变量(如国家名称、年份、指标名称),时间跨度为2004年至2024年。所有数据均以国家层级聚合呈现,并在HDX平台上持续更新至2026年3月。
使用方法
用户可通过Hugging Face的datasets库便捷加载该数据集,使用一行代码即可完成数据获取:load_dataset('electricsheepafrica/africa-world-bank-public-sector-indicators-for-south-sudan')。加载后可将训练集与测试集转换为Pandas DataFrame格式进行后续分析,支持直接调用train.to_pandas()与test.to_pandas()方法。数据适用于表格分类任务,也可用于研究南苏丹公共部门治理绩效的时间序列变化与跨国比较分析。
背景与挑战
背景概述
南苏丹作为非洲最年轻的国家,长期面临治理能力薄弱、公共部门效率低下等严峻挑战。世界银行集团自其独立以来便持续追踪该国公共部门绩效,通过经济管理、结构性政策、社会包容与公平以及公共部门制度四大维度评估政府效能。该数据集于2026年由世界银行通过人道主义数据交换平台(HDX)发布,并由非洲本土机构Electric Sheep Africa重新整理为机器学习友好格式。核心研究问题聚焦于如何利用统计绩效指标、军费开支等关键数据,量化评估南苏丹公共部门治理水平。其对相关领域的影响力在于:首次为数据匮乏的脆弱国家提供了标准化的治理评估数据集,填补了机器学习教育资源在非洲公共政策领域的空白,为后续基于数据驱动的政策建议与可持续发展目标监测奠定了重要基础。
当前挑战
该数据集所解决的领域问题挑战在于:公共部门效能评估长期依赖定性专家判断,缺乏可量化的机器学习训练数据,尤其在冲突频发的南苏丹,传统统计体系崩溃导致治理监测近乎空白。构建过程中遭遇的具体挑战包括:第一,原始数据来源多元且定义不一致,例如军费开支与统计绩效指标量纲差异悬殊(从-2.6到2640亿美元),需统一尺度以避免模型偏差;第二,数据完整性问题突出,部分年份指标缺失严重,2004年至2024年的时间序列中存在系统性空白;第三,数据验证困难,世界银行原始数据未经独立第三方核实,而自动化清洗无法纠正源头错报或抽样偏差;第四,地理范围仅限南苏丹一国,样本量仅1005条,限制了模型泛化能力与跨区域比较分析的可行性。
常用场景
经典使用场景
在公共政策与经济发展研究领域,南苏丹公共部门数据集为评估国家治理效能与财政健康状况提供了宝贵的时间序列素材。该数据集涵盖世界银行对国家经济管理、结构性政策、社会包容与公平政策以及公共部门制度质量的评估指标,同时囊括国际货币基金组织政府财政统计中的收入与支出数据。研究者利用这些指标可构建面板数据模型,追踪南苏丹2004年至2024年间制度绩效的演变轨迹,尤其适用于分析冲突后重建阶段政府能力的动态变化。其经典的分类任务场景聚焦于预测公共支出效率与治理质量类别,通过监督学习方法揭示不同发展阶段的关键驱动因素。
衍生相关工作
基于该数据集已衍生出一系列聚焦非洲公共部门效能的前沿探索。Electric Sheep Africa团队将其转化为机器学习就绪的Parquet格式,为后续时间序列预测与异常检测研究奠定了工程基础。一些学者以该数据为蓝本,结合南苏丹冲突事件数据库构建了治理-安全联动分析框架,探索公共开支缩减与暴力升级之间的阈值效应。另有一项工作利用随机森林模型对该数据集中的统计能力指标进行分类,识别出影响数据生产质量的关键制度瓶颈,相关方法已被推广至索马里与中非共和国等相似情境的对比研究中。
数据集最近研究
最新研究方向
该数据集聚焦于南苏丹公共部门治理效能评估,整合了世界银行针对最贫困国家的经济管理、结构政策、社会包容与公共部门制度等维度的绩效指标,同时纳入国际货币基金组织的政府财政统计及税收政策数据。当前前沿研究方向主要集中于利用这些时序指标构建预测模型,以分析冲突后国家的治理质量与公共服务供给效率之间的动态关联。结合人道主义数据交换中心(HDX)的数据基础设施,研究者正尝试通过机器学习方法识别脆弱国家在财政透明度、统计能力建设等方面的关键瓶颈,为国际发展机构制定精准干预策略提供数据驱动的决策支持。该数据集的机器就绪化处理显著降低了非结构化政府统计数据的应用门槛,推动了人工智能在脆弱国家治理评估与人道主义响应领域的交叉创新。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务