africa-hdro-data-for-sao-tome-and-principe
收藏Hugging Face2026-04-15 更新2026-04-16 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-hdro-data-for-sao-tome-and-principe
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为“圣多美和普林西比 - 人类发展指标”,由联合国开发计划署人类发展报告办公室(HDRO)发布,旨在通过数据质量、一致性和国际可比性的高标准,促进关于人类发展相关问题的全球、区域和国家政策讨论。数据集聚焦于人类发展指数(HDI)和多维贫困指数(MPI),涵盖健康、教育、性别平等等关键维度。数据集包含791条国家层面的聚合数据,分为训练集(632条)和测试集(158条)。数据字段包括地理信息(如国家代码、名称)、指标ID和名称、年份、数值等。数据集适用于表格分类和回归任务,特别适合研究人类发展和社会经济指标的分析。数据最后更新于2026年3月4日,由Electric Sheep Africa整理为机器学习可用的Parquet格式。
创建时间:
2026-04-08
原始信息汇总
Sao Tome and Principe - Human Development Indicators 数据集概述
基本信息
- 数据集名称:Sao Tome and Principe - Human Development Indicators
- 发布者:UNDP Human Development Reports Office (HDRO)
- 数据来源:HDX (https://data.humdata.org/dataset/hdro-data-for-sao-tome-and-principe)
- 许可证:cc-by-4.0
- 语言:英语
- 多语言性:单语
- 数据集大小类别:n<1K
- 任务类别:表格分类、表格回归
- 标签:africa, humanitarian, hdx, electric-sheep-africa, demographics, development, education, gender, health, indicators, socioeconomics, stp
- 最后更新日期(HDX):2026-03-04
- ML格式处理方:Electric Sheep Africa (https://huggingface.co/electricsheepafrica)
数据集特征
- 领域:公共卫生
- 观察单位:国家层面汇总数据
- 总行数:791
- 列数:10 (2个数值型,8个分类型,0个日期时间型)
- 训练集分割:632行
- 测试集分割:158行
- 地理范围:STP (圣多美和普林西比)
数据内容与结构
- 数据描述:本数据集旨在通过人类发展指数(HDI)等指标,评估国家发展水平,强调以人民及其能力为最终标准。数据可用于激发关于政府政策优先事项的讨论,并监测可持续发展目标(SDG 1)的进展。每行代表国家层面的汇总数据。
- 数据涵盖维度:健康长寿、知识水平、体面的生活水平。
- 相关指数:人类发展指数(HDI)、性别发展指数(GDI)、性别不平等指数(GII)、2019年全球多维贫困指数(MPI)。
变量说明
- 地理变量:
country_code(STP)、country_name(Sao Tome and Principe)、index_id(GDI, GII, HDI)、index_name(Gender Development Index, Gender Inequality Index, Human Development Index)、year(范围 1990.0–2023.0)。 - 结果/测量变量:
value(范围 0.048–6505.068)。 - 标识符/元数据变量:
indicator_id(例如 co2_prod, mmr, mys_m)、indicator_name(例如 Carbon dioxide emissions per capita (production) (tonnes), Maternal Mortality Ratio (deaths per 100,000 live births), Mean Years of Schooling, male (years))、esa_source(HDX)、esa_processed(2026-04-08)。
数据集模式(Schema)
| 列名 | 类型 | 空值百分比 | 范围 / 示例值 |
|---|---|---|---|
country_code |
object | 0.0% | STP |
country_name |
object | 0.0% | Sao Tome and Principe |
indicator_id |
object | 0.0% | co2_prod, mmr, mys_m |
indicator_name |
object | 0.0% | Carbon dioxide emissions per capita (production) (tonnes), Maternal Mortality Ratio (deaths per 100,000 live births), Mean Years of Schooling, male (years) |
index_id |
object | 0.0% | GDI, GII, HDI |
index_name |
object | 0.0% | Gender Development Index, Gender Inequality Index, Human Development Index |
value |
float64 | 0.0% | 0.048 – 6505.068 (均值 512.2587) |
year |
int64 | 0.0% | 1990.0 – 2023.0 (均值 2009.1226) |
esa_source |
object | 0.0% | HDX |
esa_processed |
object | 0.0% | 2026-04-08 |
数值摘要
| 列名 | 最小值 | 最大值 | 均值 | 中位数 |
|---|---|---|---|---|
value |
0.048 | 6505.068 | 512.2587 | 29.4 |
year |
1990.0 | 2023.0 | 2009.1226 | 2010.0 |
数据预处理
- 原始数据通过CKAN API从HDX下载并转换为Parquet格式。
- 列名被转换为小写和蛇形命名法。
- 常见的缺失值标记被统一为
NaN。 - 数据集使用固定的随机种子(42)按80/20的比例分割为训练集和测试集,并保存为Snappy压缩的Parquet文件。
局限性
- 数据来源于UNDP人类发展报告办公室(HDRO),未经ESA独立验证。
- 自动清理无法纠正原始数据中误报的值、定义不一致或抽样偏差。
- 有关发布者自身的方法说明和注意事项,请参考原始HDX数据集页面 (https://data.humdata.org/dataset/hdro-data-for-sao-tome-and-principe)。
引用格式
bibtex @dataset{hdx_africa_hdro_data_for_sao_tome_and_principe, title = {Sao Tome and Principe - Human Development Indicators}, author = {UNDP Human Development Reports Office (HDRO)}, year = {2026}, url = {https://data.humdata.org/dataset/hdro-data-for-sao-tome-and-principe}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }
搜集汇总
数据集介绍

构建方式
该数据集源于联合国开发计划署人类发展报告办公室(HDRO)发布的官方统计数据,聚焦于圣多美和普林西比的人类发展指标。原始数据通过HDX平台的CKAN API获取,经过Electric Sheep Africa团队的系统性整理与标准化处理,转化为适用于机器学习任务的Parquet格式。在数据清洗过程中,团队统一了字段命名规范,采用蛇形命名法,并将各类缺失值标记规范为NaN,确保了数据的结构一致性。最终,数据集按照80:20的比例划分为训练集与测试集,采用固定随机种子以保证可复现性,并以Snappy压缩格式存储,为后续分析提供了可靠的基础。
特点
本数据集以国家层面的聚合数据为核心,涵盖了1990年至2023年间圣多美和普林西比的多维发展指标。其内容不仅包括人类发展指数(HDI)、性别发展指数(GDI)及性别不平等指数(GII)等综合度量,还涉及人均二氧化碳排放、孕产妇死亡率、男性平均受教育年限等具体社会经济与健康变量。数据集结构清晰,包含10个字段,其中数值型与分类型变量分布均衡,且无缺失值,保证了数据的完整性与可用性。地理范围明确限定于圣多美和普林西比,为深入探究该国人类发展轨迹提供了精细化的时序观测视角。
使用方法
研究者可利用Hugging Face的datasets库直接加载该数据集,通过调用load_dataset函数即可便捷获取训练集与测试集。数据以Pandas DataFrame格式呈现,便于进行探索性分析与统计建模。该数据集适用于表格分类与回归任务,能够支持对人类发展指标的趋势预测、影响因素分析等机器学习应用。在使用过程中,建议参考原始HDX页面所附的方法学说明,以充分理解指标定义与数据收集背景,确保分析结论的稳健性与政策相关性。
背景与挑战
背景概述
人类发展指数(HDI)作为衡量国家发展水平的核心指标,由联合国开发计划署(UNDP)于1990年首次提出,旨在突破单一经济指标的局限,全面评估人民在健康、教育和生活水平等维度的福祉。圣多美和普林西比人类发展指标数据集由UNDP人类发展报告办公室(HDRO)与牛津贫困与人类发展倡议(OPHI)合作构建,聚焦于这一非洲岛国自1990年至2023年的发展轨迹。该数据集通过整合多维贫困指数(MPI)等关键指标,为政策制定者提供了评估可持续发展目标进展的实证基础,尤其在推动全球发展议程中扮演了重要角色。
当前挑战
在应用该数据集解决人类发展评估问题时,面临的挑战包括如何准确量化健康、教育等多维指标的交互影响,以及处理不同年份数据因统计方法变更导致的可比性问题。数据集构建过程中,原始数据收集面临小国统计基础设施薄弱带来的样本偏差风险,且指标定义的国际一致性难以完全保证。此外,自动化清洗流程虽统一了缺失值标记,却无法修正原始报告中可能存在的误报或方法论差异,这要求研究者必须结合UNDP官方的方法论说明进行谨慎解读。
常用场景
经典使用场景
在人类发展研究领域,该数据集为圣多美和普林西比的国家级发展指标提供了结构化时间序列数据。研究者通常利用其包含的人类发展指数、性别发展指数等关键指标,构建回归或分类模型,以分析该国在健康、教育和生活水平等维度的长期演变趋势。这些模型能够揭示发展进程中的关键转折点,为评估政策干预效果提供量化依据。
实际应用
在实际政策制定层面,该数据集被联合国开发计划署及各国政府机构用于监测圣多美和普林西比的国家发展战略实施成效。决策者依据数据中的孕产妇死亡率、人均碳排放等具体指标,调整公共卫生与环境政策资源配置。国际组织亦借助这些指标进行援助效果评估,确保发展项目精准对接当地最迫切的人类发展需求。
衍生相关工作
基于该数据集衍生的经典研究包括牛津贫困与人类发展倡议的多维贫困指数计算方法优化,以及联合国开发计划署发布的年度人类发展报告中的国别深度分析。机器学习领域则涌现出利用该数据训练的发展预测模型,如结合卫星遥感数据与人类发展指标的空间计量经济学研究,这些工作显著拓展了传统发展评估的方法论边界。
以上内容由遇见数据集搜集并总结生成



