africa-world-bank-combined-indicators-for-tunisia
收藏Hugging Face2026-04-15 更新2026-04-16 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-world-bank-combined-indicators-for-tunisia
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界银行数据门户中关于突尼斯的经济、社会、环境、健康、教育、发展和能源等主题的指标数据。数据集由Electric Sheep Africa整理为适合机器学习的格式,包含国家层面的聚合数据。数据集总共有65,046行,分为52,036行的训练集和13,009行的测试集。每行数据包含地理信息(国家名称、ISO3代码、年份)、指标名称和代码、数值以及元数据(数据来源和处理日期)。数据集适用于表格分类任务,可用于分析突尼斯的多领域发展指标。数据集的局限性包括数据未经独立验证,可能存在报告错误或定义不一致的情况。
This dataset comprises indicator data related to Tunisia across themes of economy, society, environment, health, education, development, and energy, sourced from the World Bank Data Portal. It was formatted for machine learning applications by Electric Sheep Africa, and includes country-level aggregated data. In total, the dataset contains 65,046 rows, which are split into a training set with 52,036 rows and a test set with 13,009 rows. Each row includes geographic information (country name, ISO3 code, year), indicator name and code, numerical value, as well as metadata (data source and processing date). This dataset is applicable to tabular classification tasks and can be used to analyze multi-domain development indicators of Tunisia. Limitations of the dataset include that the data has not undergone independent verification, and may have reporting errors or inconsistent definitions.
创建时间:
2026-04-14
原始信息汇总
数据集概述
基本信息
- 数据集名称:Tunisia - Economic, Social, Environmental, Health, Education, Development and Energy
- 发布者:World Bank Group
- 数据来源:HDX (https://data.humdata.org/dataset/world-bank-combined-indicators-for-tunisia)
- 原始数据源:World Bank 数据门户 (http://data.worldbank.org/)
- 许可协议:cc-by-4.0
- 语言:英语
- 多语言性:单语
- 数据规模:10K<n<100K
- 任务类别:表格分类
- 标签:africa, humanitarian, hdx, electric-sheep-africa, agriculture-livestock, aid-effectiveness, climate-weather, development, economics, education, energy, environment, tun
数据内容与范围
- 地理范围:突尼斯 (TUN)
- 时间范围:1960年至2025年
- 数据主题:涵盖农业与农村发展、援助有效性、经济与增长、教育、能源与采矿、环境、金融部门、健康、基础设施、社会保障与劳动、贫困、私营部门、公共部门、科学与技术、社会发展、城市发展、性别、气候变化、外债、贸易等多个领域。
- 观测单位:国家层面汇总数据
- 数据行数:总计65,046行
- 数据划分:
- 训练集:52,036行
- 测试集:13,009行
数据结构
- 列数:8列
- 列类型:2个数值列,6个分类列,0个日期时间列
- 数据列详情:
country_name:国家名称(Tunisia)country_iso3:国家ISO3代码(TUN)year:年份(1960.0–2025.0)indicator_name:指标名称(例如:Domestic credit to private sector (% of GDP))indicator_code:指标代码(例如:EN.URB.MCTY.TL.ZS)value:指标数值(-122279074400.0–226208479300.0)esa_source:数据来源(HDX)esa_processed:数据处理日期(2026-04-13)
数据摘要
- 数值列统计:
year:最小值1960.0,最大值2025.0,平均值1998.1508,中位数2000.0value:最小值-122279074400.0,最大值226208479300.0,平均值1707316653.6526,中位数50.0967
数据处理与质量
- 数据清洗:列名转换为小写蛇形命名,统一缺失值标记为NaN,移除了19,599条完全重复的行。
- 数据格式:已转换为Snappy压缩的Parquet格式。
- 数据划分:使用固定随机种子(42)按80/20比例划分为训练集和测试集。
- 更新信息:
- HDX数据最后更新日期:2026-03-27
- 本数据集处理日期:2026-04-13
使用方式
可通过Hugging Face datasets库加载:
python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-world-bank-combined-indicators-for-tunisia")
局限说明
- 数据源自世界银行集团,未经ESA独立验证。
- 自动清洗无法纠正原始数据中误报的值、定义不一致或抽样偏差。
- 建议参考原始HDX数据集页面获取发布方的方法说明和注意事项。
引用格式
bibtex @dataset{hdx_africa_world_bank_combined_indicators_for_tunisia, title = {Tunisia - Economic, Social, Environmental, Health, Education, Development and Energy}, author = {World Bank Group}, year = {2026}, url = {https://data.humdata.org/dataset/world-bank-combined-indicators-for-tunisia}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }
搜集汇总
数据集介绍

构建方式
在经济社会与环境发展研究领域,数据整合与标准化是支撑跨国比较与趋势分析的关键基础。本数据集由世界银行集团发布,原始数据来源于其公开数据门户,涵盖了突尼斯在农业、经济发展、教育、能源、环境、健康、社会保障等二十余个关键领域的国家层面聚合指标。Electric Sheep Africa团队通过HDX平台的CKAN API获取原始数据,经过系统性的数据清洗流程,包括统一缺失值标记、删除重复记录,并将数据转换为Snappy压缩的Parquet格式,最终按80:20的比例划分训练集与测试集,确保了数据的机器学习可用性与结构一致性。
特点
该数据集以其多维度的指标覆盖和精细的时间跨度展现出显著的研究价值。数据囊括了从1960年至2025年长达六十五年的突尼斯国家层面观测值,涉及经济发展、社会进步、环境变迁与公共健康等多个核心领域。其结构化特征突出,包含八个字段,其中既有标识国家与年份的地理时间维度,也有具体的指标名称、代码及数值测量,且所有字段均无缺失值,保证了数据的完整性与可靠性。数据规模适中,总计超过六万五千条记录,为时间序列分析与跨领域关联研究提供了丰富的实证素材。
使用方法
对于致力于发展经济学、区域研究或公共政策分析的学者而言,本数据集可直接应用于构建预测模型或进行描述性统计分析。使用者可通过Hugging Face的datasets库便捷加载数据,利用Python环境将数据转换为Pandas DataFrame进行后续处理。数据已预分为训练集与测试集,便于直接投入机器学习流程,例如训练回归模型以预测特定社会经济指标的趋势,或运用分类方法探究不同发展维度间的关联模式。研究人员需注意,数据源自世界银行的官方统计,使用时应结合原始发布方的方法学说明进行合理解读。
背景与挑战
背景概述
该数据集由世界银行集团发布,并由Electric Sheep Africa于2026年重新整理为机器学习友好格式,聚焦于突尼斯国家层面的综合发展指标。作为国际发展研究的重要数据资源,其整合了农业、经济、教育、能源、环境、健康、社会保护等二十余个关键领域的时序数据,时间跨度自1960年至2025年。该数据集旨在为研究人员和政策制定者提供一个多维度的量化基础,以支持对突尼斯社会经济变迁、可持续发展进程及政策干预效果的深入分析,对发展经济学、公共政策及区域研究领域具有显著的参考价值。
当前挑战
该数据集致力于解决多维度国家发展指标的综合建模与预测问题,其核心挑战在于如何有效整合高度异质且尺度不一的时序指标,以捕捉复杂社会经济系统内的非线性相互作用。在构建过程中,数据清洗面临统一缺失值标记、去除重复记录以及处理原始数据中可能存在的定义不一致或报告偏差等难题。此外,将原始数据转化为适用于机器学习任务的表格形式时,需保持指标含义的完整性,并确保训练集与测试集的分割能反映时序依赖性,这对模型的泛化能力提出了较高要求。
常用场景
经典使用场景
在经济学与公共政策研究领域,该数据集作为突尼斯国家层面多维度指标的整合资源,其经典应用场景在于支持时间序列分析与跨领域关联研究。学者们利用其涵盖1960年至2025年的长期数据,能够深入探究经济发展、社会变迁与环境动态之间的相互作用,例如通过分析城市化率与私人部门信贷占GDP比重的演变,揭示结构性转型的轨迹。
解决学术问题
该数据集有效解决了发展经济学中关于单一国家长期发展轨迹的实证研究难题。通过整合农业、教育、健康、能源等二十余个主题的标准化指标,它使得研究者能够系统检验经济增长理论、评估政策干预效果,并识别社会发展中的瓶颈因素,从而为理解中等收入国家的可持续发展路径提供了坚实的经验基础。
衍生相关工作
围绕该数据集衍生的经典研究工作,主要集中在利用机器学习方法进行社会经济预测与模式识别。例如,学者们应用回归与分类模型预测未来年份的关键发展指标,或采用聚类分析识别不同政策时期的发展特征。这些研究不仅推动了计算社会科学在区域研究中的应用,也催生了针对表格数据特征工程与缺失值处理的创新方法论。
以上内容由遇见数据集搜集并总结生成



