five

africa-world-bank-education-indicators-for-gambia-the

收藏
Hugging Face2026-04-15 更新2026-04-16 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-world-bank-education-indicators-for-gambia-the
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为'Gambia, The - Education',包含来自世界银行数据门户的教育指标数据,由Electric Sheep Africa整理为适合机器学习的格式。数据集涵盖了冈比亚的国家级汇总数据,涉及教育投入、参与、效率和结果等方面的指标。数据更新至2026年3月27日,地理范围为冈比亚(GMB)。数据集总共有15,914行,分为12,731行的训练集和3,182行的测试集。包含8个列(2个数值型,6个类别型),主要变量包括地理信息(国家名称、ISO3代码、年份)、结果/测量值(数值范围0.0–807275.0)以及标识符/元数据(指标名称、指标代码、数据来源和处理日期)。数据集适用于表格分类和回归任务,主要用于教育领域的分析和研究。
创建时间:
2026-04-11
原始信息汇总

数据集概述:Gambia, The - Education

基本信息

  • 数据集名称:Gambia, The - Education
  • 发布者:World Bank Group
  • 数据来源:HDX (https://data.humdata.org/dataset/world-bank-education-indicators-for-gambia-the)
  • 许可证:cc-by-4.0
  • 语言:英语
  • 多语言性:单语
  • 数据规模:10K<n<100K
  • 任务类别:表格分类、表格回归
  • 标签:africa, humanitarian, hdx, electric-sheep-africa, education, indicators, gmb
  • 最后更新日期(HDX):2026-03-27
  • 数据处理日期:2026-04-11

数据集特征

  • 领域:教育
  • 观察单位:国家层面汇总数据
  • 地理范围:GMB(冈比亚)
  • 总行数:15,914
  • 列数:8(2个数值型,6个分类型,0个日期时间型)
  • 训练集:12,731行
  • 测试集:3,182行

变量说明

  • 地理信息
    • country_name:Gambia, The
    • country_iso3:GMB
    • year:年份(范围:1960.0–2025.0)
  • 结果/测量值
    • value:数值(范围:0.0–807275.0)
  • 标识符/元数据
    • indicator_name:指标名称(例如:Population ages 15-64 (% of total population))
    • indicator_code:指标代码(例如:SP.POP.1564.TO.ZS)
    • esa_source:数据来源(HDX)
    • esa_processed:处理日期(2026-04-11)

数据模式

列名 类型 空值比例 范围/示例值
country_name object 0.0% Gambia, The
country_iso3 object 0.0% GMB
year int64 0.0% 1960.0 – 2025.0 (均值 1996.8246)
indicator_name object 0.0% Population ages 15-64 (% of total population), Population ages 0-14 (% of total population), Number of infant deaths, male
indicator_code object 0.0% SP.POP.1564.TO.ZS, SP.POP.0014.TO.ZS, SH.DTH.IMRT.MA
value float64 0.0% 0.0 – 807275.0 (均值 34010.4673)
esa_source object 0.0% HDX
esa_processed object 0.0% 2026-04-11

数值摘要

列名 最小值 最大值 均值 中位数
year 1960.0 2025.0 1996.8246 1999.0
value 0.0 807275.0 34010.4673 95.8829

数据处理

  • 原始数据通过CKAN API从HDX下载并转换为Parquet格式。
  • 列名被转换为小写和蛇形命名法。
  • 常见的缺失值标记(如N/Anullnone-unknownno data#N/A)被统一为NaN
  • 数据集使用固定随机种子(42)按80/20的比例划分为训练集和测试集,并保存为Snappy压缩的Parquet文件。

使用说明

python from datasets import load_dataset

ds = load_dataset("electricsheepafrica/africa-world-bank-education-indicators-for-gambia-the") train = ds["train"].to_pandas() test = ds["test"].to_pandas()

print(train.shape) train.head()

局限性

  • 数据来源于世界银行集团,未经ESA独立验证。
  • 自动清洗无法纠正原始数据中的误报值、定义不一致或抽样偏差。
  • 有关发布者自身的方法说明和注意事项,请参考原始HDX数据集页面(https://data.humdata.org/dataset/world-bank-education-indicators-for-gambia-the)。

引用

bibtex @dataset{hdx_africa_world_bank_education_indicators_for_gambia_the, title = {Gambia, The - Education}, author = {World Bank Group}, year = {2026}, url = {https://data.humdata.org/dataset/world-bank-education-indicators-for-gambia-the}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }

搜集汇总
数据集介绍
main_image_url
构建方式
在教育发展研究领域,数据质量直接影响政策评估的准确性。该数据集源自世界银行集团,通过联合国教科文组织统计研究所系统收集,整合了冈比亚自1960年至2025年的国家层面教育指标。原始数据从人道主义数据交换平台获取,经由Electric Sheep Africa团队进行标准化处理,包括统一缺失值标记、转换列名为蛇形命名法,并采用固定随机种子将数据按80:20比例划分为训练集与测试集,最终以Snappy压缩的Parquet格式存储,确保其可直接应用于机器学习流程。
特点
作为聚焦非洲教育发展的专题数据集,其核心特征体现在多维度的结构化设计。数据集涵盖15,914条记录,包含8个特征列,其中既包含年份、数值指标等连续变量,也囊括国家编码、指标名称等分类变量。地理范围严格限定于冈比亚,时间跨度长达65年,指标涉及人口年龄结构、婴儿死亡率等关键教育相关维度。数据完整度高,所有字段均无缺失值,且经过严格的数值范围校验,例如数值字段跨度从0至807,275,为纵向比较与趋势分析提供了稳健基础。
使用方法
在应用层面,该数据集适用于教育政策分析与预测建模等任务。用户可通过Hugging Face的datasets库直接加载,利用Python环境快速转换为Pandas DataFrame进行操作。数据集已预分割为训练集与测试集,可直接用于监督学习框架下的回归或分类模型训练,例如预测教育指标随时间的变化趋势。研究者需注意数据源自国际机构的原始报告,建议结合世界银行的方法论说明进行交叉验证,以确保分析结论的可靠性。
背景与挑战
背景概述
教育作为减贫与促进经济增长的核心驱动力,其量化评估依赖于系统性的跨国数据支撑。世界银行集团长期致力于全球教育指标的收集与发布,旨在通过联合国教科文组织统计研究所的官方调查,构建覆盖教育投入、参与度与成果的权威数据库。2026年,Electric Sheep Africa机构将冈比亚的教育指标数据重新整合为机器学习可用格式,形成了名为“africa-world-bank-education-indicators-for-gambia-the”的数据集。该数据集聚焦于冈比亚自1960年至2025年的国家级聚合数据,涵盖人口结构、婴儿死亡率等多维度指标,为研究非洲地区教育发展轨迹及其社会经济影响提供了结构化基础。
当前挑战
该数据集旨在支持教育政策分析与预测建模,其核心挑战在于处理跨国教育指标固有的复杂性。指标定义随时间与国家统计标准演变可能产生不一致性,例如“适龄人口比例”与“婴儿死亡数”的统计口径差异,影响跨年度可比性。数据构建过程中,原始数据存在缺失值标记不统一、数值异常等问题,虽经自动化清洗转换为NaN,但无法修正源数据可能存在的误报或抽样偏差。此外,数据集仅涵盖冈比亚单一国家,限制了模型在更广泛非洲语境下的泛化能力,需结合多国数据以提升分析深度。
常用场景
经典使用场景
在非洲发展研究领域,该数据集为冈比亚的教育指标提供了系统化的时序数据,涵盖了人口结构、婴儿死亡率等关键维度。研究者通常利用这些结构化信息,构建回归或分类模型,以预测教育投入与人口动态之间的关联趋势,从而揭示长期社会变迁的潜在规律。
解决学术问题
该数据集有效应对了发展经济学中关于教育资源配置与人口转型的量化分析难题。通过整合世界银行的标准指标,它使得学者能够检验教育覆盖率、年龄结构变化与健康结果之间的因果关系,为评估干预政策的长期效应提供了实证基础,推动了证据导向的发展策略研究。
衍生相关工作
围绕该数据集衍生的经典工作包括利用机器学习方法预测冈比亚未来人口年龄结构的变化趋势,以及构建教育指标与经济增长的关联模型。这些研究通常结合其他社会经济数据集,拓展了跨领域的发展评估框架,为非洲国家的政策模拟提供了重要的数据支撑。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务