five

electricsheepafrica/africa-education-cape-verde

收藏
Hugging Face2026-04-27 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-education-cape-verde
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集提供了佛得角医疗和教育服务空间可达性的深入洞察。它使用免费开放工具(如openrouteservice)和开放数据源(主要是OpenStreetMap)创建。通过旅行时间等时线(表示在给定时间或距离内驾车可达区域的多边形)与WorldPop人口数据(提供100米分辨率估计)叠加,计算了从医院服务10到120分钟距离和从学校5到50公里距离内的人口覆盖情况。分析单位基于geoboundaries国家边界,并在可用时汇总更细的行政级别(ADM 1-4)结果。数据集包含地区名称、ISO国家代码、唯一标识符、服务类别(教育、医院或初级医疗)、范围类型(距离或时间)、范围值、总人口、学龄人口及相关统计指标,用于评估可达性。

annotations_creators: - 无标注(no-annotation) language_creators: - 现有数据采集(found) language: - 英语(en) license: cc-by-sa-4.0 multilinguality: - 单语言(monolingual) size_categories: - 1000 < 样本数 < 10000 source_datasets: - 原创数据集(original) task_categories: - 表格分类(tabular-classification) - 表格回归(tabular-regression) - 其他(other) task_ids: [] tags: - 非洲(africa) - 人道主义(humanitarian) - 人类数据交换平台(HDX, Humanitarian Data Exchange) - 电羊非洲(electric-sheep-africa) - 教育(education) - 医疗设施(health-facilities) - 交通(transportation) - 佛得角(cpv, Cape Verde) pretty_name: "佛得角——可达性指标" dataset_info: splits: - name: 训练集(train) num_examples: 870 - name: 测试集(test) num_examples: 217 # 佛得角——可达性指标 **发布方**:HeiGIT(海德堡地理信息技术研究所,Heidelberg Institute for Geoinformation Technology) · **来源**:[HDX](https://data.humdata.org/dataset/cape-verde-accessibility-indicators) · **许可协议**:`cc-by-sa` · **更新时间**:2026-02-27 --- ## 摘要 本数据集旨在揭示佛得角境内医疗与教育服务的空间可达性情况。本数据集依托[openrouteservice](https://openrouteservice.org/)等免费开源工具,以及以[OpenStreetMap](https://www.openstreetmap.org/,简称OSM)为主的开源数据源构建。 为评估教育与医疗服务的可达性,本研究采用了旅行时间等时线(travel-time isochrones)——即通过驾车方式在指定时长或距离内可抵达区域的多边形范围。我们将这些等时线与[WorldPop](https://www.worldpop.org/)提供的100米分辨率人口估算数据进行叠加,以此计算医院周边10至120分钟行程区间内,以及学校周边5至50公里距离区间内的人口规模。本数据集的分析单元以[geoboundaries](https://www.geoboundaries.org/)提供的国家边界为基准,在数据可用的情况下,还会在更精细的行政层级(ADM 1至4)上对结果进行汇总。 ### 数据结构 各字段说明如下: - **name**:区域或国家名称 - **iso**:ISO3国家代码 - **id**:行政单元唯一标识符 - **country**:ISO3国家代码 - **admin_level**:行政单元层级 - **category**:服务类别,可选值为`education`(教育)、`hospitals`(医院)或`primary_healthcare`(基层医疗) - **range_type**:服务区范围的计算方式,可选`distance`(距离)或`time`(时间) - **range**:生成多边形时所采用的学校周边距离(单位:米)或行程时间(单位:秒) - **population**:指定范围内的总人口数 - **school_age_population**:指定范围内的学龄人口数 - **school_age_population_share**:学龄人口累计占比 - **school_age_population_interval**:当前距离区间内新增的学龄人口数 - **school_age_population_interval_share**:当前区间内新增学龄人口的占比 - **population_share**:总人口累计占比 - **population_interval**:当前距离区间内新增的总人口数 - **population_interval_share**:当前区间内新增总人口的占比 本数据集是[HeiGIT在HDX上发布的多个数据集](https://data.humdata.org/organization/heidelberg-institute-for-geoinformation-technology)之一。更多信息可访问[HeiGIT官网](https://heigit.org/)。 我们期待了解您的应用场景!欢迎通过[communications@heigit.org](mailto:communications@heigit.org)联系我们,分享您的研究成果——我们乐意助力推广您的工作。 ## 参考文献 1. [Geldsetzer, P., Reinmuth, M., Ouma, P. O., Lautenbach, S. et al. (2020)](https://www.thelancet.com/journals/lanhl/article/PIIS2666-7568(20)30010-6/fulltext) 2. [Petricola, S., Reinmuth, M., Lautenbach, S. et al. (2022)](https://ij-healthgeographics.biomedcentral.com/articles/10.1186/s12942-022-00315-2) 3. [Klipper, I. G., Zipf, A., and Lautenbach, S. (2021)](https://agile-giss.copernicus.org/articles/2/4/2021/) 4. [Ruiz Sánchez, R., Reinmuth, M., Albornoz, C., Lautenbach, S., and Zipf, A. (2025)](https://agile-giss.copernicus.org/articles/6/10/2025/) ## 补充信息 - [开放获取指南(Open Access Lens)](https://giscience.github.io/open-access-lens/#/) ## 局限性说明 1. **OpenStreetMap数据完整性**:本分析基于OpenStreetMap(OSM)数据。尽管OSM是全球最完善的开源地图数据集,但其数据质量在不同区域存在显著差异。在道路或设施未被标注的区域,可达性测算结果可能被低估。 2. **人口估算误差**:人口统计数据来源于WorldPop自上而下的约束型估算结果。此类数据基于人口普查预测与卫星影像构建的统计模型,而非直接的人口普查计数,因此在局部像素层面可能存在误差。 3. **行程时间假设限制**:等时线基于不同道路类型的标准车速计算得出,未考虑实时交通、季节性天气(如洪涝)或路面老化等因素。 4. **行政边界精度问题**:行政边界数据来源于geoBoundaries,其与官方政府划定的边界或其他标准边界可能存在细微差异。 本数据集的每条记录代表国家层级的汇总数据。HDX平台上本数据集的最后更新时间为2026-02-27。地理覆盖范围:**CPV(佛得角)**。 *本数据集已由[电羊非洲(Electric Sheep Africa)](https://huggingface.co/electricsheepafrica)整理为适用于机器学习的Parquet格式。* ## 数据集特征 | | | |---|---| | **领域** | 公共卫生 | | **观测单元** | 国家层级汇总数据 | | **总记录数** | 1088 | | **字段数** | 15(5个数值型,10个分类型,0个日期时间型) | | **训练集划分** | 870条记录 | | **测试集划分** | 217条记录 | | **地理覆盖范围** | CPV(佛得角) | | **发布方** | HeiGIT(海德堡地理信息技术研究所) | | **HDX平台最后更新时间** | 2026-02-27 | ## 变量说明 **地理类字段**:`iso`(示例值:CV-BV、CV-BR、CV-TA)、`country`(CPV)、`admin_level`(ADM2、ADM1、ADM0)、`category`(education,即教育)、`range_type`(DISTANCE,即距离)等共5个字段。 **标识符与元数据字段**:`name`(示例值:Sao Joao Baptista、Nossa Senhora Da Luz、Nossa Senhora Do Rosario)、`id`(示例值:35879248B70460974689380、66160863B96352926706883、66160863B6342114798882)、`esa_source`(HDX)、`esa_processed`(2026-04-27)。 **其他字段**:`range`(取值范围5000.0–50000.0)。 ## 快速上手 python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-education-cape-verde") train = ds["train"].to_pandas() test = ds["test"].to_pandas() print(train.shape) train.head() ## 字段结构 | 字段名 | 数据类型 | 缺失率 | 取值范围/示例值 | |---|---|---|---| | `name` | 字符型(object) | 0.0% | Sao Joao Baptista、Nossa Senhora Da Luz、Nossa Senhora Do Rosario | | `iso` | 字符型(object) | 58.1% | CV-BV、CV-BR、CV-TA | | `id` | 字符型(object) | 0.0% | 35879248B70460974689380、66160863B96352926706883、66160863B6342114798882 | | `country` | 字符型(object) | 0.0% | CPV | | `admin_level` | 字符型(object) | 0.0% | ADM2、ADM1、ADM0 | | `category` | 字符型(object) | 0.0% | education(教育) | | `range_type` | 字符型(object) | 0.0% | DISTANCE(距离) | | `range` | 64位整型(int64) | 0.0% | 5000.0 – 50000.0(均值:27738.9706) | | `population_type` | 字符型(object) | 0.0% | school_age(学龄人口)、total(总人口) | | `population` | 64位整型(int64) | 0.0% | 0.0 – 470044.0(均值:14767.9301) | | `population_share` | 64位浮点型(float64) | 0.0% | 0.0 – 100.0(均值:71.4702) | | `population_interval` | 64位整型(int64) | 0.0% | 0.0 – 239356.0(均值:1682.3759) | | `population_interval_share` | 64位浮点型(float64) | 0.0% | 0.0 – 92.75(均值:8.0203) | | `esa_source` | 字符型(object) | 0.0% | HDX | | `esa_processed` | 字符型(object) | 0.0% | 2026-04-27 | ## 数值型字段统计 | 字段名 | 最小值 | 最大值 | 均值 | 中位数 | |---|---|---|---|---| | `range` | 5000.0 | 50000.0 | 27738.9706 | 30000.0 | | `population` | 0.0 | 470044.0 | 14767.9301 | 3507.5 | | `population_share` | 0.0 | 100.0 | 71.4702 | 81.21 | | `population_interval` | 0.0 | 239356.0 | 1682.3759 | 14.0 | | `population_interval_share` | 0.0 | 92.75 | 8.0203 | 0.295 | ## 数据整理流程 原始数据通过CKAN API从HDX平台下载,并转换为Parquet格式。字段名称统一转换为小写蛇形命名法。常见的缺失值标记(`N/A`、`null`、`none`、`-`、`unknown`、`no data`、`#N/A`)被统一替换为`NaN`。本数据集以固定随机种子(42)按照80/20的比例划分为训练集与测试集,并以Snappy压缩格式保存为Parquet文件。 ## 局限性说明 - 本数据来源于HeiGIT(海德堡地理信息技术研究所),未经过电羊非洲的独立验证。 - 自动化清洗流程无法修正原始数据集中的错报值、定义不一致或采样偏差问题。 - 以下字段的缺失率超过20%,在建模过程中需谨慎使用:`iso`。 - 有关发布方的方法论说明与额外注意事项,请参阅[原始HDX数据集页面](https://data.humdata.org/dataset/cape-verde-accessibility-indicators)。 ## 引用格式 bibtex @dataset{hdx_africa_education_cape_verde, title = {Cape Verde - Accessibility Indicators}, author = {HeiGIT (Heidelberg Institute for Geoinformation Technology)}, year = {2026}, url = {https://data.humdata.org/dataset/cape-verde-accessibility-indicators}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} } *[电羊非洲(Electric Sheep Africa)](https://huggingface.co/electricsheepafrica)——非洲机器学习数据集基础设施。尼日利亚拉各斯。*
提供机构:
electricsheepafrica
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作