electricsheepafrica/africa-ports-cape-verde
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-ports-cape-verde
下载链接
链接失效反馈官方服务:
资源简介:
该数据集记录了佛得角港口每日的港口呼叫次数、进出口货物量(以公吨计)的估计值。每行数据代表国家层面的汇总。数据集由PortWatch发布,通过HDX获取,并由Electric Sheep Africa整理为适合机器学习的Parquet格式。数据集包含13,320行数据,分为训练集(10,656行)和测试集(2,664行),涵盖2019年至2026年的数据。数据集详细描述了各列变量,包括地理、时间、标识符/元数据等类别。
Daily count of port calls, estimates of incoming shipment volumes and outgoing shipment volumes (in metric tons) for ports in Cabo Verde. Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-04-21. Geographic scope: CPV. Curated into ML-ready Parquet format by Electric Sheep Africa.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自PortWatch通过HDX平台发布的原始每日港口活动数据,由Electric Sheep Africa团队借助CKAN API获取并精心整理。原始数据被统一转换为Snappy压缩的Parquet格式,列名经过小写化和蛇形命名规范化处理。常见的缺失值标记如“N/A”、“null”等被统一替换为NaN。基于解析成功率超过85%的阈值,将一列字符串类型转换为数值或日期时间类型。最终以固定的随机种子42按照80/20的比例划分为训练集和测试集,确保数据划分的可复现性。
特点
数据集聚焦于佛得角(Cabo Verde)港口的日常活动,涵盖2019年至2026年的长时间跨度,包含13320条国家层面聚合记录。其31个特征中包括24个数值型字段,如各类船舶的到港次数(容器、干散货、一般货物、滚装船、油轮等)以及进口与出口货物的估计吨位(最高达85718吨)。此外还包含港口标识、名称等6个分类型变量。数据时间粒度精细到日,地理范围明确限定为CPV(佛得角),为分析与建模提供了丰富且结构化的信息。
使用方法
使用者可直接通过Hugging Face的datasets库便捷加载该数据集,调用load_dataset函数即可获得训练和测试两个切片。返回的数据集对象可转换为Pandas DataFrame,便于利用Python生态进行后续的数据探索和机器学习任务。该数据集适用于表格数据分类与回归任务,例如预测港口货运量或到港频率。需要注意的是,数据未经独立验证,使用时应参考原始发布方的方法说明,并注意自动清洗流程无法纠正原始数据中可能存在的误报或定义偏差。
背景与挑战
背景概述
非洲大陆的港口活动与贸易数据在 humanitarian 与开发研究领域占据重要地位,特别是对于岛国如佛得角(Cabo Verde),其经济高度依赖海上运输。该数据集由 PortWatch 发布,并由 Electric Sheep Africa 于 2026 年整理成机器学习就绪格式,记录了佛得角港口的每日停靠次数及进出港货物估计量(以公吨计),时间跨度从 2019 年至 2026 年。核心研究问题在于通过细粒度时间序列数据,揭示小岛屿国家在贸易流动性、港口效率及供应链韧性方面的动态规律。该数据集为人道主义物流、经济地理及灾害响应分析提供了关键基准,填补了非洲区域港口数据在标准化和可复用性方面的空白,对相关领域实证研究具有重要推动作用。
当前挑战
该数据集所应对的领域挑战在于,非洲港口活动数据长期存在碎片化、不完整及定义不统一的问题,制约了跨国贸易模式分析与预测模型的可靠性。构建过程中,主要挑战包括:原始数据源自 PortWatch 且未经独立验证,自动清洗流程虽统一了缺失值标记并转换了数据类型,却无法修正因报告错误或抽样偏差导致的系统性失真;此外,粗粒度的国家层面聚合掩盖了港口间异质性,且部分时间段内变量存在空值,增加了模型训练的噪声与偏差风险。这些挑战要求研究者在使用时须审慎评估数据质量,并结合外部验证机制以增强结论的稳健性。
常用场景
经典使用场景
africa-ports-cape-verde数据集汇聚了佛得角各港口每日的船舶靠泊频次与进出口货物吨位估算,涵盖集装箱、干散货、一般货物、滚装船及油轮等多种船型。该数据集为海事物流与区域经济研究提供了精细的时间序列观测单元,尤其适用于构建港口活动预测模型,如利用历史靠泊频率和货运量数据,通过回归或时序分析方法,对未来短期内的港口吞吐量进行估算。
实际应用
实际应用中,该数据集可服务于人道主义物流规划与贸易政策制定。援助组织可依据港口进口散货和集装箱的历史数据,优化应急物资的运输调度与仓储布局。政府与港口管理部门则能通过分析不同货类(如油轮、滚装船)的进出趋势,识别基础设施瓶颈,为港口扩建或航线优化提供数据支撑。此外,贸易商可借助出口量的时序规律,预判市场需求波动。
衍生相关工作
该数据集衍生了若干具有启发性的研究方向。例如,结合其港口靠泊与货运数据,研究者可构建基于机器学习的异常检测模型,识别海盗活动或自然灾害导致的航运中断事件。另一经典工作是将该数据集与全球贸易网络图谱融合,分析佛得角在非洲—欧洲航运走廊中的枢纽潜力。此外,基于此数据训练的回归模型可迁移至其他缺少统计能力的小岛屿国家,推广低资源场景下的港口活动估算方法。
以上内容由遇见数据集搜集并总结生成



