electricsheepafrica/africa-ports-senegal
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-ports-senegal
下载链接
链接失效反馈官方服务:
资源简介:
该数据集记录了塞内加尔港口的日常活动数据和货物运输估计。每行数据代表国家层面的聚合信息,包括港口呼叫次数、进口和出口货物量的估计(以公吨为单位)。数据集由PortWatch发布,来源于HDX,并由Electric Sheep Africa整理成适合机器学习的Parquet格式。数据集包含7,950行数据,分为6,360行的训练集和1,590行的测试集。数据集包含31列,其中24列为数值型,6列为分类变量。数据集的地理范围为塞内加尔(SEN)。数据最后更新于2026年4月8日。
Daily count of port calls, estimates of incoming shipment volumes and outgoing shipment volumes (in metric tons) for ports in Senegal. Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-04-08. Geographic scope: SEN. Curated into ML-ready Parquet format by Electric Sheep Africa.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自PortWatch发布在人类数据交换平台(HDX)上的塞内加尔每日港口活动原始数据,经由Electric Sheep Africa团队以CKAN应用程序接口下载后,完成了一系列标准化处理流程。原始数据被转换为Parquet格式,列名统一转换为小写蛇形命名法,常见的缺失值标记(如N/A、null、none等)被统一替换为NaN。同时,依据解析成功率超过85%的阈值,将1列字符串类型转换为数值或时间类型。最终,采用固定随机种子(42)将数据以80:20的比例划分为训练集与测试集,并以Snappy压缩格式的Parquet文件存储,形成可直接用于机器学习的数据集。
特点
该数据集聚焦于塞内加尔港口日常活动,记录了2019年至2026年间多个港口的船舶靠港数量和货物吞吐量估算,涵盖集装箱、干散货、一般货物、滚装船、油轮及总计货物等多种类型。数据包含31个字段,其中24个为数值型,6个为类别型,共7950条记录,观测单元为国家级汇总数据。地理范围明确指向塞内加尔,时间粒度精确至日,提供了丰富的港口活动时间序列信息。数据集还包含了进出口货物量的详细估算,对于分析该国贸易动态与物流模式具有重要价值。
使用方法
研究人员可通过HuggingFace的datasets库便捷加载该数据集,使用load_dataset函数指定数据集名称'electricsheepafrica/africa-ports-senegal'即可获取训练集与测试集。数据以Pandas DataFrame格式调用,便于进行探索性数据分析、特征工程及建模工作。该数据集适用于表格分类与回归任务,可用于预测港口吞吐量、识别贸易模式或构建物流预警系统等应用场景。用户应参考HDX原始页面获取发布者的方法论说明,并注意数据未经过Electric Sheep Africa团队的独立验证,存在原始数据收集过程中的报告偏差与定义不一致等潜在局限。
背景与挑战
背景概述
在全球人道主义与发展数据领域,港口活动数据是评估区域贸易流动与经济韧性的关键指标。由PortWatch发布、经Electric Sheep Africa于2026年重新整理为机器学习就绪格式的塞内加尔每日港口活动与货运估算数据集(africa-ports-senegal),聚焦于塞内加尔境内主要港口的船舶靠泊频次及进出口货物吨位估计。该数据集涵盖2019年至2026年间共7950条记录,包含达喀尔港及两个海上石油终端等关键节点的31项特征变量,为研究西非物流网络、 humanitarian响应和贸易动态提供了细粒度的时间序列数据。其核心价值在于填补了撒哈拉以南非洲地区标准化港口开放数据的空白,有助于推动机器学习在人道主义物流预测与供应链优化中的应用。
当前挑战
该数据集所解决的领域挑战在于:非洲港口数据长期存在碎片化、更新滞后与语义不一致问题,传统上依赖稀疏的海关或航运联盟报告,难以支撑基于机器学习的精准预测模型。构建过程中,团队面临多重挑战:原始数据来源PortWatch的采集方法未获独立验证,部分字段(如出口滚装船、油轮数据)呈现高缺失率;不同货运类型(干散货、集装箱等)的度量单位与定义标准可能随年份波动;从HDX平台通过CKAN API抽取后,需统一处理各类缺失值标记、转换数据类型,并手动标准化列名,此过程可能引入隐性偏差。此外,80/20的数据划分策略虽确保了可复现性,但时间序列的时序依赖特征未被显式建模,存在信息泄露风险。
常用场景
经典使用场景
在非洲物流与贸易分析领域,Senegal港口日度活动数据集凭借其精细的时间粒度和多维货运指标,成为预测港口吞吐量、评估供应链韧性的基准资源。研究者常利用其记录的集装箱、散货、滚装船及油轮等不同船型的到港频次,结合每日进口与出口吨位估算,构建时序预测模型以捕捉塞内加尔港口作业的季节性波动与长期趋势。该数据集涵盖2019至2026年的日度观测,包含31个特征变量,训练集与测试集以80:20比例划分,便于开展监督学习任务,如回归分析中预测特定货物类型的进口量,或分类任务中识别港口拥堵事件的前兆模式。
实际应用
在实际应用中,该数据集为塞内加尔港务部门的智能调度与海关风险管理提供了决策支撑。通过分析历史船舶到港模式,港口运营方可优化泊位分配策略,减少船舶等待时间;结合进口集装箱与干散货的预估量,贸易公司能够提前调整库存计划,降低供应链中断所致的仓储成本。此外,人道主义组织可借助出口数据的动态变化,快速评估粮食或能源物资的流通状况,在危机响应中更精准地定位物资投放节点。该数据集所揭示的运输模式还可辅助保险公司设计针对西非航线的货运风险模型,提升保费定价的合理性。
衍生相关工作
基于该数据集,学术界衍生出一系列聚焦于数据稀缺环境下港口建模的经典工作。部分研究将其作为预训练样本,利用迁移学习框架将塞内加尔的港口行为模式泛化至其他数据缺失的西非沿海国家。另有工作结合卫星遥感影像中的船舶检测结果,构建了多模态融合模型以提升到港记录的完整性。在模型层面,研究者针对该数据中零值占比高的稀疏特征,开发了专门处理港口非连续活动的时间序列分解算法,进而催生了面向低频海运事件预测的贝叶斯增强方法。这些衍生工作共同推动了非洲智能海运分析工具链的发展。
以上内容由遇见数据集搜集并总结生成



