electricsheepafrica/africa-world-bank-financial-sector-indicators-for-south-sudan
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-world-bank-financial-sector-indicators-for-south-sudan
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- no-annotation
language_creators:
- found
language:
- en
license: cc-by-4.0
multilinguality:
- monolingual
size_categories:
- n<1K
source_datasets:
- original
task_categories:
- tabular-regression
- other
task_ids: []
tags:
- africa
- humanitarian
- hdx
- electric-sheep-africa
- economics
- indicators
- ssd
pretty_name: "South Sudan - Financial Sector"
dataset_info:
splits:
- name: train
num_examples: 722
- name: test
num_examples: 180
---
# South Sudan - Financial Sector
**Publisher:** World Bank Group · **Source:** [HDX](https://data.humdata.org/dataset/world-bank-financial-sector-indicators-for-south-sudan) · **License:** `cc-by` · **Updated:** 2026-03-27
---
## Abstract
Contains data from the World Bank's [data portal](http://data.worldbank.org/). There is also a [consolidated country dataset](https://data.humdata.org/dataset/world-bank-combined-indicators-for-south-sudan) on HDX.
An economy's financial markets are critical to its overall development. Banking systems and stock markets enhance growth, the main factor in poverty reduction. Strong financial systems provide reliable and accessible information that lowers transaction costs, which in turn bolsters resource allocation and economic growth. Indicators here include the size and liquidity of stock markets; the accessibility, stability, and efficiency of financial systems; and international migration and workers\ remittances, which affect growth and social welfare in both sending and receiving countries.
Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-27. Geographic scope: **SSD**.
*Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).*
---
## Dataset Characteristics
| | |
|---|---|
| **Domain** | Poverty and economic vulnerability |
| **Unit of observation** | Country-level aggregates |
| **Rows (total)** | 903 |
| **Columns** | 8 (2 numeric, 6 categorical, 0 datetime) |
| **Train split** | 722 rows |
| **Test split** | 180 rows |
| **Geographic scope** | SSD |
| **Publisher** | World Bank Group |
| **HDX last updated** | 2026-03-27 |
---
## Variables
**Geographic** — `country_name` (South Sudan), `country_iso3` (SSD), `year` (range 1960.0–2025.0).
**Outcome / Measurement** — `value` (range -1078293666537.33–2504703858099.18).
**Identifier / Metadata** — `indicator_name` (Net migration, Banking crisis dummy (1=banking crisis, 0=none), Domestic credit to private sector (% of GDP)), `indicator_code` (SM.POP.NETM, GFDD.OI.19, FP.CPI.TOTL), `esa_source` (HDX), `esa_processed` (2026-04-10).
---
## Quick Start
```python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-world-bank-financial-sector-indicators-for-south-sudan")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
```
---
## Schema
| Column | Type | Null % | Range / Sample Values |
|---|---|---|---|
| `country_name` | object | 0.0% | South Sudan |
| `country_iso3` | object | 0.0% | SSD |
| `year` | int64 | 0.0% | 1960.0 – 2025.0 (mean 2013.1008) |
| `indicator_name` | object | 0.0% | Net migration, Banking crisis dummy (1=banking crisis, 0=none), Domestic credit to private sector (% of GDP) |
| `indicator_code` | object | 0.0% | SM.POP.NETM, GFDD.OI.19, FP.CPI.TOTL |
| `value` | float64 | 0.0% | -1078293666537.33 – 2504703858099.18 (mean 5776576917.8364) |
| `esa_source` | object | 0.0% | HDX |
| `esa_processed` | object | 0.0% | 2026-04-10 |
---
## Numeric Summary
| Column | Min | Max | Mean | Median |
|---|---|---|---|---|
| `year` | 1960.0 | 2025.0 | 2013.1008 | 2015.0 |
| `value` | -1078293666537.33 | 2504703858099.18 | 5776576917.8364 | 11.0938 |
---
## Curation
Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet.
---
## Limitations
- Data originates from World Bank Group and has not been independently validated by ESA.
- Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection.
- Refer to the [original HDX dataset page](https://data.humdata.org/dataset/world-bank-financial-sector-indicators-for-south-sudan) for the publisher's own methodology notes and caveats.
---
## Citation
```bibtex
@dataset{hdx_africa_world_bank_financial_sector_indicators_for_south_sudan,
title = {South Sudan - Financial Sector},
author = {World Bank Group},
year = {2026},
url = {https://data.humdata.org/dataset/world-bank-financial-sector-indicators-for-south-sudan},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
```
---
*[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
在金融发展研究领域,数据集的构建往往依赖于权威机构发布的宏观经济指标。本数据集以南苏丹为研究对象,其原始数据来源于世界银行集团通过HDX平台公开的金融部门指标。数据采集覆盖了从1960年至2025年的时间跨度,涵盖了净迁移、银行危机虚拟变量以及私人部门国内信贷占GDP比重等多个关键指标。Electric Sheep Africa团队通过CKAN API从HDX获取原始数据,并进行了系统的数据清洗与标准化处理,包括统一缺失值标记、规范列名为蛇形命名法,最终将数据转换为Parquet格式。为确保机器学习应用的可行性,数据集按照80:20的比例使用固定随机种子划分为训练集与测试集,并以Snappy压缩格式存储,从而为后续分析提供了结构清晰、可直接使用的数据基础。
特点
该数据集聚焦于南苏丹的金融部门发展,其核心特征体现在数据的结构化与领域专属性上。数据集共包含903条记录,每条记录代表国家层面的年度聚合数据,涵盖了8个变量,其中既包括年份、国家名称等地理标识,也包含了具体的指标名称、代码及其数值。数值型变量如‘value’展示了极大的动态范围,从负值到正值,反映了金融指标在不同年份的波动性。数据集采用训练集与测试集的划分方式,分别包含722条和180条记录,便于直接应用于回归或其他表格数据任务。此外,所有字段均无缺失值,数据完整性较高,且经过统一的清洗处理,确保了数据质量与一致性,为金融稳定性与经济增长的关联研究提供了可靠的数据支撑。
使用方法
在应用本数据集进行经济与金融分析时,用户可通过Hugging Face的datasets库便捷加载数据。使用load_dataset函数并指定数据集名称,即可获取已划分为训练集和测试集的数据对象。为进一步处理,可将数据转换为Pandas DataFrame格式,便于进行探索性数据分析、特征工程或模型训练。数据集适用于表格回归任务,例如基于历史金融指标预测经济趋势,也可用于其他分类或描述性统计分析。用户应注意数据来源于世界银行,虽经清洗但未独立验证,建议参考原始发布方的方法论说明以理解指标定义与潜在偏差。通过利用该数据集,研究人员能够深入探讨南苏丹金融系统的稳定性、信贷市场发展与宏观经济表现之间的内在联系。
背景与挑战
背景概述
在金融经济学与发展研究领域,国家层面的金融部门指标是评估经济健康与增长潜力的关键依据。世界银行集团作为全球发展数据的重要权威机构,长期致力于构建并发布涵盖各国的金融体系统计数据。2026年,Electric Sheep Africa团队对南苏丹的金融部门指标数据集进行了系统化整理与机器学习适配,形成了‘africa-world-bank-financial-sector-indicators-for-south-sudan’数据集。该数据集聚焦于南苏丹这一新兴经济体的金融发展轨迹,核心研究问题在于揭示其金融体系的规模、流动性、稳定性及效率如何影响经济增长与减贫进程。通过整合净迁移、银行危机虚拟变量、私人部门国内信贷占GDP比重等关键指标,该数据集为学术界与政策制定者提供了深入分析南苏丹金融脆弱性与发展机遇的实证基础,对非洲区域经济研究具有重要的参考价值。
当前挑战
该数据集旨在解决金融发展指标与国家经济表现关联性分析的挑战,具体涉及如何利用有限的历史数据准确刻画南苏丹这类新兴经济体的金融体系演变及其对宏观经济的传导机制。在构建过程中,挑战主要源于原始数据的固有局限:世界银行数据可能存在报告不一致、定义差异或采样偏差,自动化清洗流程难以修正底层的方法论问题。此外,数据集规模相对较小(总计903行),时间跨度虽长但指标覆盖有限,这制约了复杂计量模型的训练与泛化能力。南苏丹作为年轻国家,其金融数据在早期年份可能存在大量缺失或估算值,进一步增加了数据质量评估与因果推断的难度。
常用场景
经典使用场景
在金融经济学与发展研究领域,该数据集为分析南苏丹金融体系的结构与动态提供了关键实证基础。学者们常利用其时间序列数据,追踪国内信贷占GDP比重、银行危机虚拟变量等核心指标,以评估金融深化进程与系统性风险。通过回归建模,研究者能够揭示金融发展与经济增长之间的非线性关联,为理解脆弱经济体的金融稳定性奠定数据支撑。
解决学术问题
该数据集有效应对了发展经济学中关于金融体系与贫困减缓机制的经典议题。通过整合世界银行权威指标,它帮助学者量化金融可及性、市场流动性对资源配置的影响,从而检验金融深化理论在冲突后国家的适用性。其长期跨年度数据为识别金融脆弱性的周期性特征提供了实证依据,推动了针对低收入国家金融包容性政策的学术讨论。
衍生相关工作
基于该数据集衍生的经典研究多聚焦于非洲冲突经济体的金融韧性分析。学者们常将其与宏观经济变量结合,构建金融脆弱性指数;亦有工作利用机器学习方法预测信贷周期转折点。这些研究不仅深化了对南苏丹特殊金融生态的理解,还促进了跨学科方法在发展经济学中的应用,为后续构建更精细的区域金融数据库奠定范式。
以上内容由遇见数据集搜集并总结生成



