africa-settlements-togo
收藏Hugging Face2026-04-28 更新2026-04-29 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-settlements-togo
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Togo - Settlements,由OCHA West and Central Africa (ROWCA)发布,来源自HDX平台。数据集包含多哥(TGO)的定居点地理定位观测数据,每个观测点代表一个具有行政级别的定居点(如国家首都、地区首府等)。数据集总共有5,337行,分为4,269行的训练集和1,067行的测试集。包含15个字段,其中3个为数值型,12个为类别型。字段包括地理坐标(经纬度)、行政编码(如adm3_pcode、adm2_pcode等)、地名(name)以及定居点类型(popplace1)等。数据集适用于人道主义和发展领域的研究,特别是与地理空间分析相关的任务。数据经过Electric Sheep Africa处理,转换为Parquet格式并进行了标准化清理。
创建时间:
2026-04-26
原始信息汇总
数据集概述:Togo - Settlements
- 数据集名称:Togo - Settlements
- 发布者:OCHA West and Central Africa (ROWCA)
- 来源:HDX 原始数据集
- 许可证:
hdx-other - 更新时间:2025-04-29(HDX 上最新更新)
- 语言:英文
- 地理范围:多哥(TGO)
- 数据用途:人道主义与发展数据,表示多哥境内聚居点的地理点位观测,包含行政级别分类(如国家首都、大区首府、省首府、公社等)。
- 数据集大小:共 5,337 行,15 列(3 个数值型,12 个类别型,0 个日期时间型)
- 数据拆分:训练集 4,269 行,测试集 1,067 行(80/20 划分,固定随机种子 42)
变量说明
| 变量名 | 类型 | 说明 / 示例值 |
|---|---|---|
name |
类别 | 聚居点名称,如 Namoute、Atchave |
popplaceci |
数值 | 行政级别编码(0.0–4.0) |
popplace1 |
类别 | 行政级别描述(Other、Commune、Town) |
lat |
数值 | 纬度(6.1203–11.1039) |
long |
数值 | 经度(-0.05–1.7833) |
adm3_fr |
类别 | 三级行政区划名称(法语),如 Lome Commune |
adm3_pcode |
类别 | 三级行政区划代码,如 TG030501 |
adm2_fr |
类别 | 二级行政区划名称(法语) |
adm2_pcode |
类别 | 二级行政区划代码 |
adm1_fr |
类别 | 一级行政区划名称(法语),如 Maritime |
adm1_pcode |
类别 | 一级行政区划代码 |
adm0_fr |
类别 | 国家名称(Togo) |
adm0_pcode |
类别 | 国家代码(TG) |
esa_source |
类别 | 来源列 |
esa_processed |
类别 | 处理标记列 |
数据预处理说明
- 原始数据通过 CKAN API 从 HDX 下载,转换为 Parquet 格式。
- 列名统一为小写和下划线命名风格。
- 常见缺失值标记(如 N/A、null、- 等)统一替换为 NaN。
- 删除 1 行精确重复数据。
- 数据按 80/20 拆分,使用 Snappy 压缩的 Parquet 格式保存。
已知局限
- 数据来源为 OCHA West and Central Africa (ROWCA),未经 Electric Sheep Africa 独立验证。
- 自动化清洗无法纠正原始数据中的误报、定义不一致或采样偏差。
- 建议参考 HDX 原始数据集页面的发布方方法论说明。
引用格式
bibtex @dataset{hdx_africa_settlements_togo, title = {Togo - Settlements}, author = {OCHA West and Central Africa (ROWCA)}, year = {2025}, url = {https://data.humdata.org/dataset/togo-settlements}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }
搜集汇总
数据集介绍

构建方式
该数据集源自人道主义数据交换平台(HDX),由联合国人道主义事务协调厅西非与中非区域办事处(OCHA ROWCA)发布,后经Electric Sheep Africa团队进行机器学习适配处理。原始数据通过CKAN应用程序接口获取,随后被转换为列式存储的Parquet格式。在清洗过程中,列名被统一转换为小写并规范为蛇形命名法,常见的缺失值标记(如N/A、null、none等)被统一替换为NaN。此外,数据集剔除了1条完全重复的记录,并采用固定随机种子42进行80/20比例划分,最终生成训练集与测试集,以Snappy压缩的Parquet文件形式存储。
特点
本数据集聚焦于多哥境内的定居点地理分布信息,包含5337条带有地理坐标的点观测记录,涵盖国家首都、大区首府、省府及市镇等行政等级。数据集合计15个字段,含3个数值型与12个分类型变量,生动刻画了各定居点的名称、行政区划代码及多级行政区域名称。该数据集无缺失值且划分明确,训练集与测试集分别为4269和1067条记录,并提供了如popplaceci等反映人口聚居等级的数值指标,空间范围覆盖经度-0.05至1.78、纬度6.12至11.10之间的多哥全境。
使用方法
用户可通过HuggingFace Datasets库便捷加载该数据集,只需调用load_dataset('electricsheepafrica/africa-settlements-togo')即可获取训练与测试两分区。加载后的数据集可轻松转换为Pandas DataFrame格式以便进行探索性分析、地理空间可视化或下游建模任务。该数据集特别适合用于非洲人道主义响应中的定居点识别、人口分布建模、行政边界校核等场景,也可作为迁移学习或多哥区域研究的基准地理数据源。
背景与挑战
背景概述
该数据集由联合国人道主义事务协调厅(OCHA)西非与中非区域办公室(ROWCA)于2025年创建,并由非洲机器学习基础设施机构Electric Sheep Africa 重新整理为机器学习就绪的Parquet格式,发布在HuggingFace平台上。核心研究问题聚焦于提供多哥全国范围内经过行政分类的聚落地理坐标数据,涵盖从国家首都到普通村庄的不同层级。作为人道主义与发展领域的基础数据资源,该数据集为灾害响应、人口分布建模、基础设施规划及可持续发展目标监测等应用提供了关键支撑。其影响力体现在填补了西非精细聚落地理信息的空白,使数据驱动的人道主义干预和区域发展研究成为可能。
当前挑战
该数据集所解决的领域挑战包括:非洲地区长期缺乏高精度、标准化的聚落空间数据,导致人道主义救援分配效率低下以及发展资源错配。具体而言,西非城乡聚落的边界模糊且行政管理等级交错,传统的粗粒度数据难以支持诸如流行病传播模拟或应急物流优化等精细化任务。在构建过程中,挑战源于原始多源数据(如HDX平台上的行政记录)存在格式不统一、缺失值编码各异及重复记录等问题。此外,自动清洗流程无法修正原始采集中的报告偏差、定义歧义或采样不均衡,聚落分类(如‘Commune’、‘Town’)在地方语境中的语义漂移进一步增加了数据标准化的复杂性,使得最终数据集仍保留了部分固有的不确定性。
常用场景
经典使用场景
多哥聚落数据集(africa-settlements-togo)收录了覆盖该国全境的5337个地理定位聚落点,每个点位均标注了行政等级(如首都、大区首府、省府、市镇等)及经纬度坐标。该数据集最经典的应用场景在于支持地理空间分析与机器学习模型的交叉融合,研究者可将其作为基准数据,用于训练和验证聚落分类模型——例如,依据聚落的行政等级、空间分布模式及其与自然地理特征(地形、水系、植被)的关联,自动识别和预测未标注区域的聚落类型与功能层级。此外,该数据亦可服务于人口分布建模、基础设施可达性分析以及人道主义应急中的目标地点定位,为西非地区的地理信息科学提供高质量的结构化训练样本。
解决学术问题
该数据集有效回应了非洲聚落研究中长期存在的空间数据稀疏与标注不一致这一核心学术挑战。由于缺乏标准化、机器可读的聚落地理数据,许多关于撒哈拉以南非洲城市化进程、行政边界内聚落层级体系以及人类活动与自然环境交互关系的定量研究难以深入。多哥聚落数据集的发布,为地理信息科学、遥感与空间统计等领域提供了宝贵的监督学习样本,使研究者得以构建能够自动识别与划分聚落行政等级的预测模型,从而推动对非洲国家内部空间治理结构的量化理解。其意义在于,将原本分散于人道主义档案中的非结构化信息转化为可复现、可扩展的机器学习基准,有力促进了数据驱动下的非洲地理学与人道主义研究范式转型。
衍生相关工作
多哥聚落数据集的出现,催生了一系列围绕非洲地理空间智能的开源工作。首先,Electric Sheep Africa团队在将原始HDX数据清洗并转化为机器学习友好型Parquet格式的过程中,建立了可复现的数据处理pipeline,这为同类非洲国家聚落数据集(如尼日利亚、肯尼亚等)的标准化积累了方法论经验。其次,该数据集可与高分辨率卫星影像、夜间灯光遥感数据或移动信令数据结合,衍生出针对聚落扩张监测、功能属性推断以及贫困指数空间降尺度等研究方向。此外,基于该数据集的简单命名实体识别与地理编码模型已被纳入一些人道主义地图开源工具包,为缺乏地理标注的新兴研究区域提供了迁移学习的预训练基础,从而形成从数据采集、模型训练到服务部署的良性循环。
以上内容由遇见数据集搜集并总结生成



