asia-education-all
收藏Hugging Face2026-05-04 更新2026-05-05 收录
下载链接:
https://huggingface.co/datasets/electricsheepasia/asia-education-all
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Bangladesh - Education,由世界银行集团发布,来源于HDX平台,采用CC-BY许可协议。数据集聚焦于孟加拉国的教育指标,旨在为减少贫困和不平等、奠定持续经济增长基础提供数据支持。数据由联合国教科文组织统计研究所从各国教育当局的官方调查和报告中编译而成。数据集包含15,333行记录,分为12,266行的训练集和3,066行的测试集。每条记录代表国家层面的汇总数据,包含8个字段(2个数值型,6个分类型),涵盖地理信息(如国家名称、ISO3代码、年份)、教育指标(如指标名称、代码、数值)以及数据处理来源和日期等元数据。数据集适用于表格分类和回归任务,特别适合教育政策分析和经济研究。数据集已由Electric Sheep Africa转换为Parquet格式,便于机器学习使用。
创建时间:
2026-05-04
原始信息汇总
数据集概述:孟加拉国教育数据(Bangladesh - Education)
基本信息
- 数据集名称:Bangladesh - Education
- 发布者:World Bank Group(世界银行集团)
- 来源:人道主义数据交换平台(HDX)
- 许可证:CC-BY-4.0
- 最后更新:2026-04-27(HDX)/ 2026-05-04(处理后)
- 语言:英语
- 地理范围:孟加拉国(BGD)
数据集描述
该数据集包含来自世界银行数据门户的教育指标,涵盖教育投入、参与率、效率与成果等。数据由联合国教科文组织统计研究所(UNESCO Institute for Statistics)根据各国官方调查和报告整理。每一行代表孟加拉国的国家级汇总数据。
数据集特征
| 属性 | 内容 |
|---|---|
| 领域 | 教育 |
| 观测单位 | 国家级汇总 |
| 总行数 | 15,333 |
| 列数 | 8(2个数值型,6个分类型,0个日期时间型) |
| 训练集 | 12,266行 |
| 测试集 | 3,066行 |
| 地理范围 | BGD(孟加拉国) |
| 发布者 | World Bank Group |
变量说明
- 地理变量:
country_name(孟加拉国)、country_iso3(BGD)、year(1960.0–2025.0) - 结果/测量变量:
value(0.0–74789575.0) - 标识符/元数据变量:
indicator_name(如人口年龄占比、五岁以下男童死亡数)、indicator_code(如SP.POP.0014.TO.ZS)、esa_source(HDX)、esa_processed(2026-05-04)
数据模式(Schema)
| 列名 | 类型 | 空值占比 | 范围/示例值 |
|---|---|---|---|
country_name |
object | 0.0% | 孟加拉国 |
country_iso3 |
object | 0.0% | BGD |
year |
int64 | 0.0% | 1960.0 – 2025.0(均值1998.0262) |
indicator_name |
object | 0.0% | 人口年龄占比、五岁以下男童死亡数等 |
indicator_code |
object | 0.0% | SP.POP.0014.TO.ZS, SH.DTH.MORT.MA等 |
value |
float64 | 0.0% | 0.0 – 74789575.0(均值3313766.5866) |
esa_source |
object | 0.0% | HDX |
esa_processed |
object | 0.0% | 2026-05-04 |
数值统计摘要
| 列名 | 最小值 | 最大值 | 均值 | 中位数 |
|---|---|---|---|---|
year |
1960.0 | 2025.0 | 1998.0262 | 2001.0 |
value |
0.0 | 74789575.0 | 3313766.5866 | 4805.0 |
数据处理与限制
- 数据清洗:从HDX通过CKAN API下载原始数据,转换为Parquet格式;列名转为小写蛇形命名;统一缺失值(N/A、null等)为NaN;按80/20比例随机分割为训练集和测试集(随机种子42),并保存为Snappy压缩的Parquet文件。
- 限制:数据来源于世界银行集团,未经Electric Sheep Africa独立验证;自动清洗无法纠正原始数据中的误报、定义不一致或抽样偏差;建议查阅原始HDX页面以获取发布者的方法论说明。
引用
bibtex @dataset{hdx_asia_education_all, title = {Bangladesh - Education}, author = {World Bank Group}, year = {2026}, url = {https://data.humdata.org/dataset/world-bank-education-indicators-for-bangladesh}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }
搜集汇总
数据集介绍

构建方式
该数据集源自世界银行教育指标门户,经由人道数据交换(HDX)平台获取。原始数据由联合国教科文组织统计研究所根据各国教育当局的官方调查与报告汇编而成。Electric Sheep Africa团队通过CKAN API下载原始数据,并将其转换为Parquet格式。在清洗过程中,列名被统一为小写蛇形命名法,常见缺失值标记被标准化为NaN。最终数据集按80:20的比例使用固定随机种子(42)划分为训练集和测试集,并以Snappy压缩的Parquet格式保存。
特点
数据集涵盖孟加拉国1960年至2025年间与教育相关的关键指标,共计15,333行观测记录,包含8个变量,其中2个为数值型、6个为分类型。核心指标包括人口年龄结构(0-14岁及15-64岁占比)、五岁以下男性死亡人数等。所有变量均无缺失值,数据完整性高。数据集具备明确的时空范围,以国家层面为观测单元,适用于教育领域的分类与回归任务,展示了教育在减贫与经济增长中的基础性作用。
使用方法
用户可通过HuggingFace datasets库直接加载该数据集,例如使用`load_dataset('electricsheepafrica/asia-education-all')`命令。加载后,数据集自动分为训练集(12,266行)和测试集(3,066行),可便捷地转换为Pandas DataFrame格式进行后续分析。该数据集适用于教育指标的趋势分析、预测建模或分类任务,用户可依据`indicator_name`和`year`字段筛选特定指标或时间范围,开展定制化的机器学习实验或统计研究。
背景与挑战
背景概述
在全球可持续发展的宏大框架下,教育被视为打破贫困循环、促进社会平等与驱动经济增长的核心杠杆。世界银行集团作为全球发展数据的重要枢纽,长期致力于系统性地搜集与整合各国教育指标,以期为政策制定者与研究者提供实证基础。在此背景下,Electric Sheep Africa于2026年发布了基于孟加拉国教育指标的机器学习就绪数据集asia-education-all。该数据集源自世界银行经由联合国教科文组织统计研究所及各国教育部门官方调查与报告汇编的国家层面宏观数据,经由HDX平台二次分发后,由研究团队进行了标准化清洗、缺失值统一及80/20随机分割处理,生成了包含超过1.5万行样本、涵盖1960年至2025年时间跨度的结构化训练与测试集。数据集聚焦于人口年龄结构、儿童死亡率等关键教育与社会指标,为研究南亚地区教育发展进程、评估干预措施效果以及构建预测模型提供了规范化的数据基础,在欠发达国家教育数据分析与机器学习交叉领域具有显著的基准价值。
当前挑战
该数据集所面临的核心挑战首先源自其领域的固有复杂性:教育产出与社会经济成效之间存在非线性、多因素交织的因果链条,单纯的宏观聚合指标难以捕捉学校质量、家庭背景、政策执行力度等微观层面的异质性与交互效应,这使得基于该数据集构建的回归或分类模型在推断因果关系时极易受到混杂变量与生态学谬误的影响。其次,数据集构建过程中遭遇了显著的质量挑战:原始数据来源于各国自主汇报,存在报告口径不一、定义随时间演变及系统性的漏报与测量误差,例如‘Population ages 0-14 (% of total population)’这类指标的跨国可比性受制于人口普查周期与统计标准的差异;同时,自动化清洗流程虽统一了缺失标记,却无法纠正源数据中潜在的误报与采样偏差,且数据仅覆盖国家层面聚合值,缺乏行政区划或时间粒度的细化分层,限制了模型在空间异质性与动态变化层面的解析能力。
常用场景
经典使用场景
在教育经济学与公共政策分析领域,数据集'asia-education-all'为研究者提供了孟加拉国1960年至2025年间的国家级教育指标面板数据。其经典使用场景涵盖时间序列预测与回归建模,例如借助'value'字段(涵盖人口年龄结构、儿童死亡率等指标)构建教育发展水平的长期趋势模型。数据经过标准化的Parquet格式预处理,并划分了训练集与测试集,便于直接开展监督学习任务,如预测不同年龄段人口占比的变化或教育相关死亡率指标的演进轨迹。
解决学术问题
该数据集有效解决了发展中国家教育指标长期缺失或数据破碎化的学术困境。通过整合世界银行与联合国教科文组织统计研究所的官方数据,研究者得以系统分析教育参与率、人口结构与儿童健康之间的多维关联。它尤其适用于探讨教育投资与减贫、经济增长之间的因果关系,弥补了孟加拉国在宏观教育计量研究中长期缺乏标准化数据源的空白,推动了基于证据的教育政策评估与可持续发展目标(SDG)监测研究。
衍生相关工作
该数据集衍生了一系列跨学科的研究工作。在机器学习领域,它常被用作时间序列预测模型的基准测试集,例如长短期记忆网络(LSTM)对教育指标波动性的捕捉能力验证。经济学者基于此构建了改进的教育-增长联立方程模型,而公共卫生研究者则将其与卫星遥感数据结合,探讨气候变迁对教育可达性的影响。Electric Sheep Africa团队还基于此推出了统一架构的区域教育数据集族,推动了亚洲发展中国家教育大数据的标准化与可复现研究范式。
以上内容由遇见数据集搜集并总结生成



