electricsheepafrica/africa-ports-djibouti
收藏Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-ports-djibouti
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为吉布提:每日港口活动数据和货物运输估计,主要包含吉布提港口的日常活动数据和货物运输估计(以公吨计)。每条记录代表国家层面的聚合数据,包含港口呼叫次数、进口和出口货物量的估计。数据集共2,664条记录,31个列(24个数值型,6个类别型),已分为训练集(2,131行)和测试集(532行)。地理范围为吉布提(DJI),由PortWatch发布,最后更新于2026-04-21。数据集经过Electric Sheep Africa整理,转换为适合机器学习的Parquet格式。
The dataset is named Djibouti: Daily Port Activity Data and Shipment Estimates, which mainly contains daily port activity data and shipment estimates (in metric tons) for ports in Djibouti. Each row represents country-level aggregates, including port calls, estimates of incoming and outgoing shipment volumes. The dataset consists of 2,664 rows and 31 columns (24 numeric, 6 categorical), and is split into a training set (2,131 rows) and a test set (532 rows). The geographic scope is Djibouti (DJI), published by PortWatch, and last updated on 2026-04-21. The dataset has been curated by Electric Sheep Africa into ML-ready Parquet format.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自PortWatch发布的吉布提港口日常活动记录,由Electric Sheep Africa团队通过HDX平台的CKAN接口获取原始数据,并转化为机器学习就绪的Parquet格式。在清洗过程中,列名被统一转换为小写蛇形命名法,常见缺失值标记被归一化为NaN,部分字段依据解析成功率超过85%的阈值从字符串转换为数值或时间类型。最终,数据以固定随机种子42按80/20比例划分为训练集与测试集,并采用Snappy压缩的Parquet格式存储,确保了高效加载与存储性能。
特点
该数据集记录了2019年至2026年间吉布提港口的逐日活动,包含2664行国家级聚合数据与31个变量,涵盖集装箱、散货、滚装船及油轮等多种船舶类型的挂靠次数,以及进出口货物吨位估量,如集装箱进口量从0至88612吨不等。数据无缺失值,时间跨度与变量分布完整,且额外携带了HDX溯源标签与处理时间戳,便于追踪与复现。这使得它成为分析东非关键节点港口贸易动态、开展时序回归或分类任务的理想基础资源。
使用方法
使用该数据集极为便捷,用户可通过Hugging Face的`datasets`库一键加载:执行`from datasets import load_dataset`后调用`load_dataset("electricsheepafrica/africa-ports-djibouti")`即可获取训练与测试分片,并可轻松转换为Pandas DataFrame进行后续分析。数据表结构清晰,包含日期、地区及多种港口活动指标,适用于构建时序预测模型或贸易流量回归任务,也可用于检验港口活动与地区经济之间的关联。建议在建模前依据发布时间窗口进一步划分验证集,并参考PortWatch原始方法论文献以理解数据采集的局限。
背景与挑战
背景概述
在非洲之角,吉布提港口作为连接红海与印度洋的战略枢纽,承担着埃塞俄比亚等内陆国家90%以上贸易运输的重任,其港口活动的精准量化对于区域人道主义援助与经济发展规划具有不可替代的价值。由PortWatch于2026年发布、经Electric Sheep Africa整理为机器学习就绪格式的“africa-ports-djibouti”数据集,系统记录了2019年至2026年间吉布提港每日的船舶靠港次数、进口与出口货物估算吨位等信息,涵盖干散货、集装箱、液货船等8种货物类型共31个字段。该数据集填补了非洲关键物流节点高频结构化数据的空白,为研究人员构建预测模型、分析贸易流量波动及评估港口效能提供了基础性资源,在人道主义物流和区域经济研究中展现出广泛应用潜力。
当前挑战
该数据集面临的核心挑战在于如何从噪声中提取可靠信号。由于数据源自PortWatch而未经独立验证,原始收集过程中可能存在漏报、定义不一致或采样偏差,自动清洗虽统一了缺失值标记,却无法纠正这些固有误差。从领域问题看,吉布提港口活动受地缘政治冲突、气候事件及政策变动等多重因素影响,需在海量日常波动中识别异常事件(如苏丹冲突导致的绕行)与常态化模式,这对时序预测模型的特征工程与鲁棒性提出极高要求。从构建过程看,将源自人道主义数据交换平台(HDX)中的异构原始数据(如日期格式、单位标注)标准化为结构化的Parquet格式时,约85%的字符串字段需强制类型转换,残余的不一致记录可能引入训练偏差,同时80/20的固定随机划分亦需后续持续验证以维持分布稳定性。
常用场景
经典使用场景
在非洲之角地区,吉布提港口作为红海与印度洋航道的重要枢纽,承担着东非内陆国家国际贸易的门户角色。该数据集完整记录了吉布提港口2019年至2026年间每日的船舶靠港频次与进出口货物吨位估算,涵盖集装箱、散货、滚装船、油轮等多种船型。其经典使用场景集中于构建港口活动时序预测模型,研究人员可通过历史船舶靠港记录与货运量数据,训练回归模型以预测未来港口吞吐量波动,或借助分类模型识别异常航运活动模式,为区域物流管理提供量化支撑。
衍生相关工作
围绕该数据集已涌现出一系列衍生研究,其中最具代表性的工作包括基于长短期记忆网络的港口吞吐量多步预测模型,以及融合卫星船舶自动识别系统数据的多模态航运活动分析框架。此外,有研究者将其与埃塞俄比亚、索马里兰等周边经济体的进出口统计进行联合建模,揭示了吉布提港口在非洲之角贸易网络中的枢纽地位与脆弱性特征。这些工作不仅验证了数据集在动态贸易网络分析中的可迁移性,也为后续构建覆盖非洲主要港口的统一时序数据库奠定了方法论基础。
数据集最近研究
最新研究方向
全球供应链韧性评估与人道主义物流预测——吉布提港作为东非关键贸易枢纽,其每日港口活动与货运量数据为研究区域经济脆弱性、冲突与气候事件对航运的影响提供了高精度时序基准。结合红海危机与非洲之角干旱等热点,该数据集可驱动基于机器学习的港口拥堵预警模型与进出口波动预测,助力人道主义援助物资调度与海运风险管理,是连接航运大数据与可持续发展目标(SDG 9、13)的重要桥梁。
以上内容由遇见数据集搜集并总结生成



