electricsheepafrica/africa-education-cape-verde
收藏Hugging Face2026-04-27 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-education-cape-verde
下载链接
链接失效反馈官方服务:
资源简介:
该数据集提供了佛得角医疗和教育服务空间可达性的深入洞察。它使用免费开放工具(如openrouteservice)和开放数据源(主要是OpenStreetMap)创建。通过旅行时间等时线(表示在给定时间或距离内驾车可达区域的多边形)与WorldPop人口数据(提供100米分辨率估计)叠加,计算了从医院服务10到120分钟距离和从学校5到50公里距离内的人口覆盖情况。分析单位基于geoboundaries国家边界,并在可用时汇总更细的行政级别(ADM 1-4)结果。数据集包含地区名称、ISO国家代码、唯一标识符、服务类别(教育、医院或初级医疗)、范围类型(距离或时间)、范围值、总人口、学龄人口及相关统计指标,用于评估可达性。
annotations_creators:
- 无标注(no-annotation)
language_creators:
- 现有数据采集(found)
language:
- 英语(en)
license: cc-by-sa-4.0
multilinguality:
- 单语言(monolingual)
size_categories:
- 1000 < 样本数 < 10000
source_datasets:
- 原创数据集(original)
task_categories:
- 表格分类(tabular-classification)
- 表格回归(tabular-regression)
- 其他(other)
task_ids: []
tags:
- 非洲(africa)
- 人道主义(humanitarian)
- 人类数据交换平台(HDX, Humanitarian Data Exchange)
- 电羊非洲(electric-sheep-africa)
- 教育(education)
- 医疗设施(health-facilities)
- 交通(transportation)
- 佛得角(cpv, Cape Verde)
pretty_name: "佛得角——可达性指标"
dataset_info:
splits:
- name: 训练集(train)
num_examples: 870
- name: 测试集(test)
num_examples: 217
# 佛得角——可达性指标
**发布方**:HeiGIT(海德堡地理信息技术研究所,Heidelberg Institute for Geoinformation Technology) · **来源**:[HDX](https://data.humdata.org/dataset/cape-verde-accessibility-indicators) · **许可协议**:`cc-by-sa` · **更新时间**:2026-02-27
---
## 摘要
本数据集旨在揭示佛得角境内医疗与教育服务的空间可达性情况。本数据集依托[openrouteservice](https://openrouteservice.org/)等免费开源工具,以及以[OpenStreetMap](https://www.openstreetmap.org/,简称OSM)为主的开源数据源构建。
为评估教育与医疗服务的可达性,本研究采用了旅行时间等时线(travel-time isochrones)——即通过驾车方式在指定时长或距离内可抵达区域的多边形范围。我们将这些等时线与[WorldPop](https://www.worldpop.org/)提供的100米分辨率人口估算数据进行叠加,以此计算医院周边10至120分钟行程区间内,以及学校周边5至50公里距离区间内的人口规模。本数据集的分析单元以[geoboundaries](https://www.geoboundaries.org/)提供的国家边界为基准,在数据可用的情况下,还会在更精细的行政层级(ADM 1至4)上对结果进行汇总。
### 数据结构
各字段说明如下:
- **name**:区域或国家名称
- **iso**:ISO3国家代码
- **id**:行政单元唯一标识符
- **country**:ISO3国家代码
- **admin_level**:行政单元层级
- **category**:服务类别,可选值为`education`(教育)、`hospitals`(医院)或`primary_healthcare`(基层医疗)
- **range_type**:服务区范围的计算方式,可选`distance`(距离)或`time`(时间)
- **range**:生成多边形时所采用的学校周边距离(单位:米)或行程时间(单位:秒)
- **population**:指定范围内的总人口数
- **school_age_population**:指定范围内的学龄人口数
- **school_age_population_share**:学龄人口累计占比
- **school_age_population_interval**:当前距离区间内新增的学龄人口数
- **school_age_population_interval_share**:当前区间内新增学龄人口的占比
- **population_share**:总人口累计占比
- **population_interval**:当前距离区间内新增的总人口数
- **population_interval_share**:当前区间内新增总人口的占比
本数据集是[HeiGIT在HDX上发布的多个数据集](https://data.humdata.org/organization/heidelberg-institute-for-geoinformation-technology)之一。更多信息可访问[HeiGIT官网](https://heigit.org/)。
我们期待了解您的应用场景!欢迎通过[communications@heigit.org](mailto:communications@heigit.org)联系我们,分享您的研究成果——我们乐意助力推广您的工作。
## 参考文献
1. [Geldsetzer, P., Reinmuth, M., Ouma, P. O., Lautenbach, S. et al. (2020)](https://www.thelancet.com/journals/lanhl/article/PIIS2666-7568(20)30010-6/fulltext)
2. [Petricola, S., Reinmuth, M., Lautenbach, S. et al. (2022)](https://ij-healthgeographics.biomedcentral.com/articles/10.1186/s12942-022-00315-2)
3. [Klipper, I. G., Zipf, A., and Lautenbach, S. (2021)](https://agile-giss.copernicus.org/articles/2/4/2021/)
4. [Ruiz Sánchez, R., Reinmuth, M., Albornoz, C., Lautenbach, S., and Zipf, A. (2025)](https://agile-giss.copernicus.org/articles/6/10/2025/)
## 补充信息
- [开放获取指南(Open Access Lens)](https://giscience.github.io/open-access-lens/#/)
## 局限性说明
1. **OpenStreetMap数据完整性**:本分析基于OpenStreetMap(OSM)数据。尽管OSM是全球最完善的开源地图数据集,但其数据质量在不同区域存在显著差异。在道路或设施未被标注的区域,可达性测算结果可能被低估。
2. **人口估算误差**:人口统计数据来源于WorldPop自上而下的约束型估算结果。此类数据基于人口普查预测与卫星影像构建的统计模型,而非直接的人口普查计数,因此在局部像素层面可能存在误差。
3. **行程时间假设限制**:等时线基于不同道路类型的标准车速计算得出,未考虑实时交通、季节性天气(如洪涝)或路面老化等因素。
4. **行政边界精度问题**:行政边界数据来源于geoBoundaries,其与官方政府划定的边界或其他标准边界可能存在细微差异。
本数据集的每条记录代表国家层级的汇总数据。HDX平台上本数据集的最后更新时间为2026-02-27。地理覆盖范围:**CPV(佛得角)**。
*本数据集已由[电羊非洲(Electric Sheep Africa)](https://huggingface.co/electricsheepafrica)整理为适用于机器学习的Parquet格式。*
## 数据集特征
| | |
|---|---|
| **领域** | 公共卫生 |
| **观测单元** | 国家层级汇总数据 |
| **总记录数** | 1088 |
| **字段数** | 15(5个数值型,10个分类型,0个日期时间型) |
| **训练集划分** | 870条记录 |
| **测试集划分** | 217条记录 |
| **地理覆盖范围** | CPV(佛得角) |
| **发布方** | HeiGIT(海德堡地理信息技术研究所) |
| **HDX平台最后更新时间** | 2026-02-27 |
## 变量说明
**地理类字段**:`iso`(示例值:CV-BV、CV-BR、CV-TA)、`country`(CPV)、`admin_level`(ADM2、ADM1、ADM0)、`category`(education,即教育)、`range_type`(DISTANCE,即距离)等共5个字段。
**标识符与元数据字段**:`name`(示例值:Sao Joao Baptista、Nossa Senhora Da Luz、Nossa Senhora Do Rosario)、`id`(示例值:35879248B70460974689380、66160863B96352926706883、66160863B6342114798882)、`esa_source`(HDX)、`esa_processed`(2026-04-27)。
**其他字段**:`range`(取值范围5000.0–50000.0)。
## 快速上手
python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-education-cape-verde")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
## 字段结构
| 字段名 | 数据类型 | 缺失率 | 取值范围/示例值 |
|---|---|---|---|
| `name` | 字符型(object) | 0.0% | Sao Joao Baptista、Nossa Senhora Da Luz、Nossa Senhora Do Rosario |
| `iso` | 字符型(object) | 58.1% | CV-BV、CV-BR、CV-TA |
| `id` | 字符型(object) | 0.0% | 35879248B70460974689380、66160863B96352926706883、66160863B6342114798882 |
| `country` | 字符型(object) | 0.0% | CPV |
| `admin_level` | 字符型(object) | 0.0% | ADM2、ADM1、ADM0 |
| `category` | 字符型(object) | 0.0% | education(教育) |
| `range_type` | 字符型(object) | 0.0% | DISTANCE(距离) |
| `range` | 64位整型(int64) | 0.0% | 5000.0 – 50000.0(均值:27738.9706) |
| `population_type` | 字符型(object) | 0.0% | school_age(学龄人口)、total(总人口) |
| `population` | 64位整型(int64) | 0.0% | 0.0 – 470044.0(均值:14767.9301) |
| `population_share` | 64位浮点型(float64) | 0.0% | 0.0 – 100.0(均值:71.4702) |
| `population_interval` | 64位整型(int64) | 0.0% | 0.0 – 239356.0(均值:1682.3759) |
| `population_interval_share` | 64位浮点型(float64) | 0.0% | 0.0 – 92.75(均值:8.0203) |
| `esa_source` | 字符型(object) | 0.0% | HDX |
| `esa_processed` | 字符型(object) | 0.0% | 2026-04-27 |
## 数值型字段统计
| 字段名 | 最小值 | 最大值 | 均值 | 中位数 |
|---|---|---|---|---|
| `range` | 5000.0 | 50000.0 | 27738.9706 | 30000.0 |
| `population` | 0.0 | 470044.0 | 14767.9301 | 3507.5 |
| `population_share` | 0.0 | 100.0 | 71.4702 | 81.21 |
| `population_interval` | 0.0 | 239356.0 | 1682.3759 | 14.0 |
| `population_interval_share` | 0.0 | 92.75 | 8.0203 | 0.295 |
## 数据整理流程
原始数据通过CKAN API从HDX平台下载,并转换为Parquet格式。字段名称统一转换为小写蛇形命名法。常见的缺失值标记(`N/A`、`null`、`none`、`-`、`unknown`、`no data`、`#N/A`)被统一替换为`NaN`。本数据集以固定随机种子(42)按照80/20的比例划分为训练集与测试集,并以Snappy压缩格式保存为Parquet文件。
## 局限性说明
- 本数据来源于HeiGIT(海德堡地理信息技术研究所),未经过电羊非洲的独立验证。
- 自动化清洗流程无法修正原始数据集中的错报值、定义不一致或采样偏差问题。
- 以下字段的缺失率超过20%,在建模过程中需谨慎使用:`iso`。
- 有关发布方的方法论说明与额外注意事项,请参阅[原始HDX数据集页面](https://data.humdata.org/dataset/cape-verde-accessibility-indicators)。
## 引用格式
bibtex
@dataset{hdx_africa_education_cape_verde,
title = {Cape Verde - Accessibility Indicators},
author = {HeiGIT (Heidelberg Institute for Geoinformation Technology)},
year = {2026},
url = {https://data.humdata.org/dataset/cape-verde-accessibility-indicators},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
*[电羊非洲(Electric Sheep Africa)](https://huggingface.co/electricsheepafrica)——非洲机器学习数据集基础设施。尼日利亚拉各斯。*
提供机构:
electricsheepafrica



