electricsheepafrica/africa-unesco-data-for-kingdom-of-eswatini
收藏Hugging Face2026-04-04 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-unesco-data-for-kingdom-of-eswatini
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- no-annotation
language_creators:
- found
language:
- en
license: cc-by-4.0
multilinguality:
- monolingual
size_categories:
- 1K<n<10K
source_datasets:
- original
task_categories:
- tabular-classification
- tabular-regression
task_ids: []
tags:
- africa
- humanitarian
- hdx
- electric-sheep-africa
- demographics
- education
- hxl
- indicators
- socioeconomics
- sustainable-development
- sustainable-development-goals-sdg
- swz
pretty_name: "Kingdom of Eswatini - Education Indicators"
dataset_info:
splits:
- name: train
num_examples: 3770
- name: test
num_examples: 942
---
# Kingdom of Eswatini - Education Indicators
**Publisher:** UNESCO · **Source:** [HDX](https://data.humdata.org/dataset/unesco-data-for-kingdom-of-eswatini) · **License:** `cc-by-igo` · **Updated:** 2023-05-16
---
## Abstract
Education indicators for Kingdom of Eswatini.
Contains data from the UNESCO Institute for Statistics [bulk data service](http://data.uis.unesco.org) covering the following categories: SDG 4 Global and Thematic (made 2022 September), Other Policy Relevant Indicators (made 2022 September), Demographic and Socio-economic (made 2022 September)
Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2023-05-16. Geographic scope: **SWZ**.
*Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).*
---
## Dataset Characteristics
| | |
|---|---|
| **Domain** | Education |
| **Unit of observation** | Country-level aggregates |
| **Rows (total)** | 4,713 |
| **Columns** | 6 (2 numeric, 4 categorical, 0 datetime) |
| **Train split** | 3,770 rows |
| **Test split** | 942 rows |
| **Geographic scope** | SWZ |
| **Publisher** | UNESCO |
| **HDX last updated** | 2023-05-16 |
---
## Variables
**Geographic** — `country_id` (SWZ, #country+code), `year` (range 1970.0–2022.0).
**Outcome / Measurement** — `value` (range 0.0–23419.8066).
**Identifier / Metadata** — `indicator_id` (AIR.1.GLAST.M, AIR.1.GLAST, AIR.1.GLAST.F), `esa_source` (HDX), `esa_processed` (2026-04-04).
---
## Quick Start
```python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-unesco-data-for-kingdom-of-eswatini")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
```
---
## Schema
| Column | Type | Null % | Range / Sample Values |
|---|---|---|---|
| `indicator_id` | object | 0.0% | AIR.1.GLAST.M, AIR.1.GLAST, AIR.1.GLAST.F |
| `country_id` | object | 0.0% | SWZ, #country+code |
| `year` | float64 | 0.0% | 1970.0 – 2022.0 (mean 2005.722) |
| `value` | float64 | 0.0% | 0.0 – 23419.8066 (mean 53.9658) |
| `esa_source` | object | 0.0% | HDX |
| `esa_processed` | object | 0.0% | 2026-04-04 |
---
## Numeric Summary
| Column | Min | Max | Mean | Median |
|---|---|---|---|---|
| `year` | 1970.0 | 2022.0 | 2005.722 | 2010.0 |
| `value` | 0.0 | 23419.8066 | 53.9658 | 5.4733 |
---
## Curation
Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. 2 column(s) with >80% missing values were removed: `magnitude`, `qualifier`. 2 column(s) were cast from string to numeric or datetime based on parse-success rate (>85% threshold). The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet.
---
## Limitations
- Data originates from UNESCO and has not been independently validated by ESA.
- Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection.
- Refer to the [original HDX dataset page](https://data.humdata.org/dataset/unesco-data-for-kingdom-of-eswatini) for the publisher's own methodology notes and caveats.
---
## Citation
```bibtex
@dataset{hdx_africa_unesco_data_for_kingdom_of_eswatini,
title = {Kingdom of Eswatini - Education Indicators},
author = {UNESCO},
year = {2023},
url = {https://data.humdata.org/dataset/unesco-data-for-kingdom-of-eswatini},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
```
---
*[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
annotations_creators:
- 无标注
language_creators:
- 现有数据源
language:
- 英语
license:
- 知识共享署名4.0许可(cc-by-4.0)
multilinguality:
- 单语言
size_categories:
- 1000<样本数<10000
source_datasets:
- 原创数据集
task_categories:
- 表格分类(tabular-classification)
- 表格回归(tabular-regression)
task_ids: []
tags:
- 非洲(africa)
- 人道主义(humanitarian)
- 人道主义数据交换(HDX)
- 电羊非洲(electric-sheep-africa)
- 人口统计学(demographics)
- 教育(education)
- 人道主义交换语言(HXL)
- 指标(indicators)
- 社会经济(socioeconomics)
- 可持续发展(sustainable-development)
- 可持续发展目标(SDG,sustainable-development-goals-sdg)
- 斯威士兰国家代码(SWZ)
pretty_name: "埃斯瓦蒂尼王国——教育指标"
dataset_info:
splits:
- name: train
num_examples: 3770
- name: test
num_examples: 942
---
# 埃斯瓦蒂尼王国——教育指标
**发布方:** 联合国教育、科学及文化组织(UNESCO) · **来源:** [人道主义数据交换(HDX)](https://data.humdata.org/dataset/unesco-data-for-kingdom-of-eswatini) · **许可协议:** `cc-by-igo` · **更新时间:** 2023-05-16
---
## 摘要
本数据集收录埃斯瓦蒂尼王国的教育指标数据。数据取自联合国教科文组织统计研究所(UNESCO Institute for Statistics)的批量数据服务(bulk data service),覆盖以下类别:2022年9月生成的可持续发展目标4(SDG 4)全球与专题数据集、2022年9月生成的其他政策相关指标数据集、2022年9月生成的人口与社会经济数据集。本数据集每一行均代表国家级汇总数据。本数据集最后一次在HDX平台更新于2023-05-16。地理覆盖范围:**SWZ(斯威士兰国家代码)**。*本数据集由[电羊非洲(Electric Sheep Africa)](https://huggingface.co/electricsheepafrica)整理为适用于机器学习的Parquet格式。*
---
## 数据集特征
| | |
|---|---|
| **领域** | 教育 |
| **观测单元** | 国家级汇总数据 |
| **总行数** | 4,713 |
| **列数** | 6(2个数值型、4个分类型、0个日期型 |
| **训练集划分** | 3,770行 |
| **测试集划分** | 942行 |
| **地理覆盖范围** | SWZ(斯威士兰国家代码) |
| **发布方** | 联合国教育、科学及文化组织 |
| **HDX最后更新时间** | 2023-05-16 |
---
## 变量
**地理类变量** — `country_id`(SWZ,#country+code)、`year`(取值范围1970.0–2022.0)。
**结果/测量类变量** — `value`(取值范围0.0–23419.8066)。
**标识符/元数据类变量** — `indicator_id`(取值为AIR.1.GLAST.M、AIR.1.GLAST、AIR.1.GLAST.F)、`esa_source`(HDX)、`esa_processed`(2026-04-04)。
---
## 快速上手
python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-unesco-data-for-kingdom-of-eswatini")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
---
## 数据模式
| 列名 | 数据类型 | 空值占比 | 取值范围/示例值 |
|---|---|---|---|
| `indicator_id` | 字符串(object) | 0.0% | AIR.1.GLAST.M、AIR.1.GLAST、AIR.1.GLAST.F |
| `country_id` | 字符串(object) | 0.0% | SWZ、#country+code |
| `year` | 64位浮点型(float64) | 0.0% | 1970.0 – 2022.0(均值2005.722) |
| `value` | 64位浮点型(float64) | 0.0% | 0.0 – 23419.8066(均值53.9658) |
| `esa_source` | 字符串(object) | 0.0% | HDX |
| `esa_processed` | 字符串(object) | 0.0% | 2026-04-04 |
---
## 数值统计摘要
| 列名 | 最小值 | 最大值 | 均值 | 中位数 |
|---|---|---|---|---|
| `year` | 1970.0 | 2022.0 | 2005.722 | 2010.0 |
| `value` | 0.0 | 23419.8066 | 53.9658 | 5.4733 |
---
## 数据整理
原始数据通过CKAN API从HDX平台下载,并转换为Parquet格式。列名统一转换为小写并标准化为蛇形命名法(snake_case)。将常见缺失值标记(`N/A`、`null`、`none`、`-`、`unknown`、`no data`、`#N/A`)统一替换为`NaN`。移除了2个缺失值占比超过80%的列:`magnitude`、`qualifier`。根据解析成功率(阈值85%)将2个列从字符串类型转换为数值型或日期型。本数据集以固定随机种子(42)按80/20比例划分为训练集与测试集,并保存为Snappy压缩格式的Parquet文件。
---
## 局限性
- 数据源自联合国教育、科学及文化组织,未经过电羊非洲(ESA)的独立验证。
- 自动化清洗流程无法修正原始数据收集中的错报值、定义不一致或抽样偏差问题。
- 请参阅[原始HDX数据集页面](https://data.humdata.org/dataset/unesco-data-for-kingdom-of-eswatini)获取发布方的方法说明与免责声明。
---
## 引用
bibtex
@dataset{hdx_africa_unesco_data_for_kingdom_of_eswatini,
title = {Kingdom of Eswatini - Education Indicators},
author = {UNESCO},
year = {2023},
url = {https://data.humdata.org/dataset/unesco-data-for-kingdom-of-eswatini},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
---
*[电羊非洲(Electric Sheep Africa)](https://huggingface.co/electricsheepafrica) — 非洲机器学习数据集基础设施。尼日利亚拉各斯。*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
在联合国教科文组织统计研究所的宏观数据框架下,该数据集通过其批量数据服务系统,系统性地采集了涵盖可持续发展目标四(SDG 4)全球与专题指标、其他政策相关指标以及人口与社会经济指标等多维数据。原始数据经由人道主义数据交换平台获取,并由Electric Sheep Africa团队进行专业化处理,包括通过CKAN API下载、统一缺失值标记、移除高缺失率字段,并依据解析成功率对数据类型进行标准化转换,最终以Snappy压缩的Parquet格式存储,确保了数据的机器可读性与结构一致性。
特点
本数据集聚焦于斯威士兰王国的教育发展轨迹,其核心特征在于以国家层面的聚合数据为单位,时间跨度覆盖1970年至2022年,提供了长期的历史观测视角。数据集结构简洁而明晰,仅包含六个关键字段,其中数值型与分类型变量分布均衡,且无任何缺失值,保证了数据的完整性与可靠性。数据经过严格的清洗与分区处理,已按80:20的比例划分为训练集与测试集,为机器学习模型的开发与评估提供了即用的基准。
使用方法
研究人员可通过Hugging Face的`datasets`库直接加载此数据集,利用其预置的训练与测试分割,快速开展表格数据的分类或回归任务探索。数据以Pandas DataFrame格式呈现,便于进行描述性统计、可视化分析以及特征工程。使用者应关注数据来源于联合国教科文组织的官方统计,在应用于政策分析或预测建模时,需结合原始发布方的方法论说明,审慎考量指标定义与收集过程中可能存在的局限性。
背景与挑战
背景概述
在可持续发展目标(SDG)的全球框架下,教育指标的精准监测与评估成为衡量国家发展进程的关键维度。联合国教科文组织(UNESCO)作为国际教育统计的权威机构,长期致力于收集与发布全球教育数据,以支持政策制定与研究分析。该数据集由UNESCO于2023年发布,并由Electric Sheep Africa机构进行机器学习适配性处理,聚焦于斯威士兰王国的教育指标,涵盖1970年至2022年的国家层面聚合数据。其核心研究问题在于通过结构化数据揭示教育发展的时间趋势与模式,为教育政策评估、资源分配及可持续发展目标(特别是SDG 4)的进展追踪提供实证基础,对非洲区域的教育研究与政策实践具有重要参考价值。
当前挑战
该数据集旨在解决教育指标分析与预测中的挑战,包括处理跨年度数据的时间序列建模、应对指标定义不一致导致的解释复杂性,以及从有限国家样本中提取稳健统计规律。在构建过程中,挑战主要源于原始数据的异构性,例如缺失值标记的多样化(如'N/A'、'null'等)需要统一清洗,部分高缺失率列(如'magnitude'、'qualifier')的剔除可能影响指标完整性,且自动化处理难以修正原始数据收集中的报告偏差或定义不一致问题。此外,数据依赖单一国家聚合层面,限制了跨区域比较或微观层面深入分析的可行性。
常用场景
经典使用场景
在非洲教育发展研究领域,该数据集为分析斯威士兰王国教育指标提供了结构化数据基础。研究者常利用其时间序列特征,构建回归或分类模型,以预测教育发展趋势或识别关键影响因素。例如,通过整合年份、指标标识符和数值变量,可对入学率、性别平等等主题进行纵向分析,揭示教育系统的动态演变规律。
实际应用
在实际应用中,该数据集被政府机构与非营利组织用于监测斯威士兰的教育进展,辅助制定针对性干预策略。例如,结合指标如AIR.1.GLAST(总入学率)的年度变化,可评估扫盲计划或性别平等倡议的实施效果,为资源优化配置提供实证依据。此外,数据支持国际组织进行区域教育对比,推动南南合作与知识共享。
衍生相关工作
围绕该数据集衍生的经典工作包括教育预测模型的开发与政策模拟研究。学者利用其构建时间序列预测框架,预估未来入学率或教育投入需求;同时,结合社会经济指标进行因果推断,分析政策变动对教育成果的长期影响。这些研究深化了对非洲教育系统韧性的理解,并为机器学习在人文发展领域的应用拓展了方法论边界。
以上内容由遇见数据集搜集并总结生成



