five

electricsheepafrica/africa-gambia-the-uneca-education

收藏
Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-gambia-the-uneca-education
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - no-annotation language_creators: - found language: - en license: cc-by-4.0 multilinguality: - monolingual size_categories: - n<1K source_datasets: - original task_categories: - tabular-regression task_ids: [] tags: - africa - humanitarian - hdx - electric-sheep-africa - education - indicators - literacy - gmb pretty_name: "GAMBIA, THE - Education indicators, UNECA" dataset_info: splits: - name: train num_examples: 32 - name: test num_examples: 8 --- # GAMBIA, THE - Education indicators, UNECA **Publisher:** United Nations Economic Commission for Africa · **Source:** [HDX](https://data.humdata.org/dataset/gambia-the-uneca-education) · **License:** `cc-by-igo` · **Updated:** 2024-09-13 --- ## Abstract This dataset contains many indicators in education such as as Net enrolment rate in primary education, Ratio of girls to boys in primary education, etc. The whole list and their description can be find in this link https://bit.ly/2NWP6Z1 Each row in this dataset represents tabular records. Data was last updated on HDX on 2024-09-13. Geographic scope: **GMB**. *Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).* --- ## Dataset Characteristics | | | |---|---| | **Domain** | Education | | **Unit of observation** | Tabular records | | **Rows (total)** | 40 | | **Columns** | 11 (8 numeric, 3 categorical, 0 datetime) | | **Train split** | 32 rows | | **Test split** | 8 rows | | **Geographic scope** | GMB | | **Publisher** | United Nations Economic Commission for Africa | | **HDX last updated** | 2024-09-13 | --- ## Variables **Identifier / Metadata** — `esa_source` (HDX), `esa_processed` (2026-04-11). **Other** — `indicator` (Adult literacy rate - Female (%), Adult literacy rate - Male (%), Net enrolment rate in primary education - Total (%)), `2010` (range 0.1–85.6), `2011` (range 0.1–83.8), `2012` (range 0.1–85.4), `2013` (range 0.9–86.6) and 4 others. --- ## Quick Start ```python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-gambia-the-uneca-education") train = ds["train"].to_pandas() test = ds["test"].to_pandas() print(train.shape) train.head() ``` --- ## Schema | Column | Type | Null % | Range / Sample Values | |---|---|---|---| | `indicator` | object | 0.0% | Adult literacy rate - Female (%), Adult literacy rate - Male (%), Net enrolment rate in primary education - Total (%) | | `2010` | float64 | 40.0% | 0.1 – 85.6 (mean 32.5583) | | `2011` | float64 | 52.5% | 0.1 – 83.8 (mean 36.2579) | | `2012` | float64 | 40.0% | 0.1 – 85.4 (mean 31.9208) | | `2013` | float64 | 40.0% | 0.9 – 86.6 (mean 44.0167) | | `2014` | float64 | 57.5% | 0.9 – 90.7 (mean 45.5647) | | `2015` | float64 | 50.0% | 0.9 – 94.5 (mean 50.805) | | `2016` | float64 | 70.0% | 1.0 – 97.1 (mean 49.2667) | | `2017` | float64 | 72.5% | 5.7 – 101.0 (mean 59.5818) | | `esa_source` | object | 0.0% | HDX | | `esa_processed` | object | 0.0% | 2026-04-11 | --- ## Numeric Summary | Column | Min | Max | Mean | Median | |---|---|---|---|---| | `2010` | 0.1 | 85.6 | 32.5583 | 5.2 | | `2011` | 0.1 | 83.8 | 36.2579 | 5.1 | | `2012` | 0.1 | 85.4 | 31.9208 | 5.15 | | `2013` | 0.9 | 86.6 | 44.0167 | 53.75 | | `2014` | 0.9 | 90.7 | 45.5647 | 67.2 | | `2015` | 0.9 | 94.5 | 50.805 | 66.95 | | `2016` | 1.0 | 97.1 | 49.2667 | 68.9 | | `2017` | 5.7 | 101.0 | 59.5818 | 74.6 | --- ## Curation Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. 2 column(s) with >80% missing values were removed: `2018`, `2019`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet. --- ## Limitations - Data originates from United Nations Economic Commission for Africa and has not been independently validated by ESA. - Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection. - The following columns have >20% missing values and should be treated with caution in modelling: `2010`, `2011`, `2012`, `2013`, `2014`, `2015`, `2016`, `2017`. - Refer to the [original HDX dataset page](https://data.humdata.org/dataset/gambia-the-uneca-education) for the publisher's own methodology notes and caveats. --- ## Citation ```bibtex @dataset{hdx_africa_gambia_the_uneca_education, title = {GAMBIA, THE - Education indicators, UNECA}, author = {United Nations Economic Commission for Africa}, year = {2024}, url = {https://data.humdata.org/dataset/gambia-the-uneca-education}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} } ``` --- *[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*

annotations_creators: - 无注释 language_creators: - 现有数据源 language: - 英语 license: CC-BY-4.0 multilinguality: - 单语言 size_categories: - 小于1000条记录 source_datasets: - 原始数据集 task_categories: - 表格回归 task_ids: [] tags: - 非洲 - 人道主义 - 人道主义数据交换(HDX) - Electric Sheep Africa(电羊非洲) - 教育 - 指标 - 识字率 - 冈比亚(GMB) pretty_name: "冈比亚 - 联合国非洲经济委员会教育指标" dataset_info: splits: - name: train num_examples: 32 - name: test num_examples: 8 # 冈比亚 - 联合国非洲经济委员会教育指标 **发布方:** 联合国非洲经济委员会 · **来源:** [人道主义数据交换(HDX)](https://data.humdata.org/dataset/gambia-the-uneca-education) · **许可证:** `cc-by-igo` · **更新时间:** 2024-09-13 --- ## 摘要 本数据集包含多项教育领域指标,例如小学净入学率、小学女童与男童比例等。完整指标列表及其说明可访问链接:https://bit.ly/2NWP6Z1。 数据集内每一行均代表一条表格记录。本数据最后一次在HDX平台更新的时间为2024年9月13日。地理覆盖范围:**冈比亚(GMB)**。 *本数据集已由[Electric Sheep Africa(电羊非洲)](https://huggingface.co/electricsheepafrica)整理为适用于机器学习的Parquet格式。* --- ## 数据集特征 | | | |---|---| | **领域** | 教育 | | **观测单元** | 表格记录 | | **总行数** | 40 | | **列数** | 11(8个数值型、3个分类型、0个日期时间型) | | **训练集划分** | 32条记录 | | **测试集划分** | 8条记录 | | **地理覆盖范围** | 冈比亚(GMB) | | **发布方** | 联合国非洲经济委员会 | | **HDX平台最后更新时间** | 2024-09-13 | --- ## 变量说明 **标识符/元数据字段**:`esa_source`(来源为HDX)、`esa_processed`(处理时间:2026-04-11)。 **其他字段**:`indicator`(包含成人女性识字率(%)、成人男性识字率(%)、小学净入学率(总计,%)等)、`2010`(取值范围0.1–85.6)、`2011`(取值范围0.1–83.8)、`2012`(取值范围0.1–85.4)、`2013`(取值范围0.9–86.6)及另外4个年份字段。 --- ## 快速上手 python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-gambia-the-uneca-education") train = ds["train"].to_pandas() test = ds["test"].to_pandas() print(train.shape) train.head() --- ## 数据架构 | 列名 | 数据类型 | 缺失率 | 取值范围/示例值 | |---|---|---|---| | `indicator` | 字符型(object) | 0.0% | 成人女性识字率(%)、成人男性识字率(%)、小学净入学率(总计,%) | | `2010` | 浮点型(float64) | 40.0% | 0.1 – 85.6(均值32.5583) | | `2011` | 浮点型(float64) | 52.5% | 0.1 – 83.8(均值36.2579) | | `2012` | 浮点型(float64) | 40.0% | 0.1 – 85.4(均值31.9208) | | `2013` | 浮点型(float64) | 40.0% | 0.9 – 86.6(均值44.0167) | | `2014` | 浮点型(float64) | 57.5% | 0.9 – 90.7(均值45.5647) | | `2015` | 浮点型(float64) | 50.0% | 0.9 – 94.5(均值50.805) | | `2016` | 浮点型(float64) | 70.0% | 1.0 – 97.1(均值49.2667) | | `2017` | 浮点型(float64) | 72.5% | 5.7 – 101.0(均值59.5818) | | `esa_source` | 字符型(object) | 0.0% | HDX | | `esa_processed` | 字符型(object) | 0.0% | 2026-04-11 | --- ## 数值统计摘要 | 列名 | 最小值 | 最大值 | 均值 | 中位数 | |---|---|---|---|---| | `2010` | 0.1 | 85.6 | 32.5583 | 5.2 | | `2011` | 0.1 | 83.8 | 36.2579 | 5.1 | | `2012` | 0.1 | 85.4 | 31.9208 | 5.15 | | `2013` | 0.9 | 86.6 | 44.0167 | 53.75 | | `2014` | 0.9 | 90.7 | 45.5647 | 67.2 | | `2015` | 0.9 | 94.5 | 50.805 | 66.95 | | `2016` | 1.0 | 97.1 | 49.2667 | 68.9 | | `2017` | 5.7 | 101.0 | 59.5818 | 74.6 | --- ## 数据整理流程 原始数据通过CKAN API从HDX平台下载,并转换为Parquet格式。列名统一转换为小写并标准化为蛇形命名法。将常见的缺失值标记(`N/A`、`null`、`none`、`-`、`unknown`、`no data`、`#N/A`)统一替换为`NaN`。移除了2个缺失值占比超过80%的列:`2018`、`2019`。本数据集采用固定随机种子(42)按80/20的比例划分为训练集与测试集,并保存为启用Snappy压缩的Parquet格式。 --- ## 数据集局限性 - 数据源自联合国非洲经济委员会,未经电羊非洲(ESA)独立验证。 - 自动化清洗无法修正原始数据收集过程中存在的错报、定义不一致或抽样偏差问题。 - 以下列的缺失值占比超过20%,在建模时需谨慎使用:`2010`、`2011`、`2012`、`2013`、`2014`、`2015`、`2016`、`2017`。 - 如需查看发布方提供的方法说明与注意事项,请访问[原始HDX数据集页面](https://data.humdata.org/dataset/gambia-the-uneca-education)。 --- ## 引用格式 bibtex @dataset{hdx_africa_gambia_the_uneca_education, title = {GAMBIA, THE - Education indicators, UNECA}, author = {United Nations Economic Commission for Africa}, year = {2024}, url = {https://data.humdata.org/dataset/gambia-the-uneca-education}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} } --- *[Electric Sheep Africa(电羊非洲)](https://huggingface.co/electricsheepafrica) — 非洲机器学习数据集基础设施。尼日利亚拉各斯。*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
在非洲教育发展研究领域,数据集的构建往往依赖于权威机构的原始统计资料。本数据集源自联合国非洲经济委员会(UNECA)发布的官方教育指标,通过人道主义数据交换平台(HDX)获取原始数据。Electric Sheep Africa团队利用CKAN API下载原始资料,并执行了系统的数据清洗流程:统一缺失值标记为NaN,删除缺失率超过80%的列,将列名标准化为蛇形命名法,最终将数据转换为Snappy压缩的Parquet格式。为确保机器学习任务的可靠性,数据按80/20的比例以固定随机种子划分为训练集与测试集,形成了包含40条记录的结构化表格。
特点
该数据集聚焦于冈比亚的教育发展指标,涵盖成人识字率、小学净入学率等关键维度,时间跨度覆盖2010年至2017年。数据集呈现典型的纵向面板结构,每条记录对应特定年份的指标数值,其中数值型字段存在不同程度的缺失,部分年份缺失率超过50%,这反映了实际统计工作中数据收集的挑战。数据集规模精炼,仅包含40行样本与11个特征列,兼具数值与分类变量,适合用于小样本回归分析或趋势预测研究。地理范围严格限定于冈比亚(GMB),为区域教育政策评估提供了高度聚焦的实证基础。
使用方法
研究人员可通过Hugging Face的datasets库直接加载该数据集,使用load_dataset函数调用相应路径即可获取已分割的训练集与测试集。数据以Pandas DataFrame格式呈现后,可针对缺失值采用插补或删除策略进行处理,并依据指标类型开展时间序列分析或跨年份比较。鉴于数据规模有限,建议采用轻量级回归模型或统计方法进行建模,同时注意验证字段间的相关性。实际应用中应参考原始HDX页面的方法论说明,结合领域知识审慎解释结果,尤其需关注高缺失率字段对模型稳健性的潜在影响。
背景与挑战
背景概述
在全球化与可持续发展议程的推动下,教育指标数据的收集与分析成为评估区域发展水平的关键依据。联合国非洲经济委员会于2024年发布了名为'GAMBIA, THE - Education indicators, UNECA'的数据集,聚焦于冈比亚的教育领域。该数据集由Electric Sheep Africa机构进行机器学习友好型重构,涵盖了成人识字率、小学净入学率及性别平等等多维指标,旨在为教育政策制定与学术研究提供结构化数据支持。其核心研究问题在于通过时序性统计揭示冈比亚教育系统的演进轨迹与现存差距,从而助力非洲地区教育公平与发展战略的实证分析。
当前挑战
该数据集致力于解决教育指标回归分析中的挑战,尤其是小样本条件下时序预测的稳健性难题。由于数据规模有限,仅包含40条记录,模型容易面临过拟合风险,难以捕捉教育系统的复杂动态。在构建过程中,原始数据存在显著的缺失值问题,多个年份字段的缺失比例超过20%,最高达72.5%,这影响了数据的连续性与完整性。此外,指标定义可能随国际标准演变而产生不一致性,自动化清洗流程无法修正原始收集阶段的报告偏差或方法论差异,为后续分析引入了潜在的不确定性。
常用场景
经典使用场景
在教育发展研究领域,该数据集为分析冈比亚教育指标的时间序列变化提供了关键数据支撑。研究者通常利用其包含的净入学率、成人识字率等指标,构建回归模型以预测教育发展趋势,评估政策干预效果。通过机器学习方法,如线性回归或时间序列分析,能够揭示不同年份间教育指标的动态关联,为理解区域教育体系演进提供量化依据。
实际应用
在实际应用中,该数据集被政府部门和国际组织用于制定针对性的教育援助计划。例如,基于净入学率和性别比例指标,决策者可以优化资源分配,针对女性识字率偏低的地区开展专项扫盲项目。非政府组织也可借助这些数据监测教育项目的实施效果,确保干预措施精准对接当地需求,从而提升冈比亚整体教育水平。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,包括利用机器学习模型预测非洲国家教育发展轨迹的学术论文。这些研究通常结合其他社会经济指标,构建多维分析框架,以探索教育不平等根源。此外,数据还被整合进区域发展评估工具中,支持比较研究,为跨国教育政策协调提供参考依据。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务