electricsheepafrica/africa-ports-guinea-bissau
收藏Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-ports-guinea-bissau
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含几内亚比绍港口的日常活动数据和货物运输估计,每日记录港口呼叫次数、进口和出口货物量(以公吨计)。数据集包含国家层面的汇总数据,每条记录代表一个国家层面的聚合数据。数据集包含2664条记录,分为2131条训练数据和532条测试数据,涵盖2019年至2026年的时间范围。数据集包含31个特征列,其中24个数值型,6个类别型,地理范围为几内亚比绍(GNB)。数据由PortWatch发布,并由Electric Sheep Africa整理为机器学习可用格式。
This dataset contains daily port activity data and shipment estimates for ports in Guinea-Bissau, including counts of port calls and estimates of incoming and outgoing shipment volumes (in metric tons). The dataset consists of country-level aggregates, with each row representing aggregated data at the country level. It includes 2,664 records, split into 2,131 training rows and 532 test rows, covering the time period from 2019 to 2026. The dataset features 31 columns (24 numeric, 6 categorical) and is geographically scoped to Guinea-Bissau (GNB). Published by PortWatch and curated into ML-ready format by Electric Sheep Africa.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集由PortWatch发布,原始数据源自人道主义数据交换平台(HDX),经由Electric Sheep Africa团队通过CKAN API下载并转化为机器学习就绪的Parquet格式。处理过程中,列名被统一转换为小写蛇形命名法,常见缺失值标记(如N/A、null等)被标准化为NaN。基于解析成功率超过85%的阈值,将一列从字符串转换为数值或日期时间类型。最终,数据集以固定随机种子42进行80/20的分割,形成训练集与测试集,并保存为Snappy压缩的Parquet文件。
特点
该数据集聚焦于几内亚比绍港口的日常活动,涵盖2019年至2026年间共计2664行国家层面汇总记录,包含31个字段,其中24个为数值型、6个为类别型。核心变量细致区分了集装箱、干散货、通用货物、滚装船、油轮等不同船型的港口停靠次数,以及相应的进口与出口货物吨位估算。数据覆盖单一港口(比绍港),时间维度精确至日,为分析西非小国的港口物流动态与贸易流量提供了高分辨率、多指标的结构化数据基础。
使用方法
用户可通过HuggingFace Datasets库便捷加载该数据集,使用`load_dataset("electricsheepafrica/africa-ports-guinea-bissau")`命令即可获取。加载后,数据集自动划分为包含2131条样本的训练集和532条样本的测试集,可转化为Pandas DataFrame进行探索性分析或建模。该数据集适用于表格分类与回归任务,研究者可直接利用其丰富的港口活动与货运量特征,开展港口效率评估、贸易流量预测或人道主义物流规划等分析工作。
背景与挑战
背景概述
在人道主义援助与区域经济发展的交叉领域中,港口活动数据是评估贸易流动、供应链韧性和经济脆弱性的关键指标。由PortWatch于2026年发布、经Electric Sheep Africa重新整理为机器学习就绪格式的非洲几内亚比绍港口日常活动数据集,聚焦于西非小国几内亚比绍的港口动态。该数据集涵盖2019年至2026年间每日的船舶停靠次数、进口与出口货物的估算吨位,包含了31个变量(如散货、集装箱、滚装船等细分类别的停靠与货运量),共计2664条国家层级的聚合记录。通过将人道主义数据交换平台(HDX)的原始数据转化为结构化且可复用的机器学习数据集,该工作填补了非洲地区精细化贸易数据在模型训练中的空白,为欠发达地区的物流预测、粮食安全评估及灾害响应提供了量化基础,并推动了数据驱动的人道主义决策范式在非洲的应用。
当前挑战
该数据集在领域问题层面应对的挑战在于,西非国家港口基础设施薄弱、数据采集体系不完善,导致传统统计方法难以精确捕捉小国(如几内亚比绍)的日常贸易波动与供应链中断风险,而机器学习模型依赖的高频、多维度港口活动数据在此类地区长期缺失。在构建过程中,主要挑战包括:原始数据来源于PortWatch的自动化船舶追踪系统,未经独立验证,可能存在报告偏差或定义不一致;数据中部分变量(如滚装船与油轮出口量)几乎全为零值,反映了小国港口功能单一或记录缺失的问题;尽管进行了缺失值统一与数据类型转换等自动化清洗,但无法纠正源数据中的系统性采样误差或统计口径变化,这些局限在模型应用中需通过外部验证与鲁棒性设计加以弥补。
常用场景
经典使用场景
在非洲人道主义与贸易分析领域,该数据集为研究几内亚比绍港口活动规律提供了标准化的时间序列样本。经典使用场景包括构建港口停靠频次预测模型、估算进出口货物吞吐量的变化趋势,以及探索多类货运船舶(如集装箱船、散货船、油轮)的作业特征。研究者可依托每日粒度的国家层面聚合数据,开展港口效率评估、贸易流季节性模式挖掘等任务,其结构化字段覆盖从港口名称到具体货运类型的完整信息链,便于机器学习中的分类与回归实验设计。
衍生相关工作
围绕该数据集已衍生出多项具有代表性的研究工作。Electric Sheep Africa团队将其整理为机器学习就绪格式,并作为非洲港口系列数据的组成部分,催生了跨国家贸易流对比分析。在此基础上,学者们构建了基于LSTM的短时港口流量预测框架,验证了历史船舶停靠频次与未来货运量的映射关系。另有一批研究结合卫星遥感与港口活动数据,开发了船舶类型识别与异常检测算法。该数据集亦被应用于西非区域经济脆弱性评估,通过回归模型揭示港口活动指数与粮食安全指标间的显著性关联。
数据集最近研究
最新研究方向
该数据集聚焦于几内亚比绍港口每日作业活动与货运量的量化监测,通过整合PortWatch与HDX的人道主义数据资源,为西非区域物流动态与贸易流变研究提供了高时间粒度的微观基础。当前前沿方向主要集中于将此类时序港口活动数据与机器学习模型耦合,以预测因气候变化、地缘冲突或公共卫生危机导致的供应链中断风险。结合非洲大陆日益紧迫的粮食安全与基础设施韧性议题,该数据集的问世为构建数据驱动的贸易脆弱性评估框架开辟了新路径,其蕴含的通关效率与货运季节性波动信息,亦对全球南方港口数字化治理具有重要启示。
以上内容由遇见数据集搜集并总结生成



