electricsheepafrica/africa-ports-guinea
收藏Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-ports-guinea
下载链接
链接失效反馈官方服务:
资源简介:
几内亚港口日常活动和货物运输估计数据集,包含国家层面的聚合数据,每条记录代表一个国家级别的汇总数据。数据集提供了港口呼叫次数、进口和出口货物量(以公吨计)的估计值。数据集由PortWatch发布,并通过Electric Sheep Africa整理为适合机器学习的格式。数据集包含15,984行数据,分为训练集(12,787行)和测试集(3,196行)。数据集包含31列,其中24列为数值型,6列为分类变量。数据集的地理范围是几内亚(GIN)。
Daily count of port calls, estimates of incoming shipment volumes and outgoing shipment volumes (in metric tons) for ports in Guinea. Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-04-21. Geographic scope: GIN. Curated into ML-ready Parquet format by Electric Sheep Africa.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自人道主义数据交换(HDX)平台,由PortWatch发布,记录了几内亚主要港口的每日活动数据及货物吞吐量估算。原始数据通过CKAN API获取,经Electric Sheep Africa团队整理与标准化处理:列名统一为小写蛇形命名法,缺失值标记(如N/A、null等)统一替换为NaN,并依据解析成功率阈值将字符串字段转换为数值或日期类型。最终数据以Snappy压缩的Parquet格式存储,并按照80:20的比例随机划分为训练集(12,787条)与测试集(3,196条),确保了数据划分的可复现性。
特点
该数据集聚焦于西非国家几内亚的港口贸易活动,涵盖2019年至2026年间来自科纳克里、卡姆萨尔和达皮隆三大港口的31个字段,包含24个数值型变量(如港口呼叫次数、各类货物进出口吨位)与6个类别型变量(如国家、港口名称),时间粒度为日。数据特点在于提供了多维度的货运细分统计,包括干散货、集装箱、滚装船、油轮及普通货物等类型的独立计量,能够支持从宏观贸易趋势到微观港口运营模式的多层次分析,且所有字段无缺失值,质量优良。
使用方法
用户可通过Hugging Face的datasets库便捷加载该数据集,调用`load_dataset("electricsheepafrica/africa-ports-guinea")`即可获取包含训练集与测试集的数据对象。数据可直接转换为Pandas DataFrame进行探索性分析与预处理,适用于表格分类或回归任务。使用者可基于数值特征(如各类货物进口量)构建贸易预测模型,或利用时间变量开展港口活动周期性分析。建议结合原始HDX页面中的方法论说明,以充分理解数据采集的潜在局限性,确保分析结论的稳健性。
背景与挑战
背景概述
非洲大陆的港口活动与贸易流量数据长期呈现碎片化与不透明性,严重制约了人道主义援助、经济规划及可持续发展研究的推进。由PortWatch发布、Electric Sheep Africa于2026年4月重新整理为机器学习就绪格式的几内亚港口日常活动数据集,首次系统汇聚了该国科纳克里、卡姆萨尔与达皮隆三大港口自2019年至2026年的每日船舶停靠次数及进出口货物吨位估算值,共计15984条记录。该数据集依托联合国人道主义数据交换平台(HDX)的原始资料,通过自动化清洗与结构化处理,将原本分散的港口日志转化为统一的表格形式,为研究西非贸易动态、物流瓶颈及区域经济韧性提供了高时间分辨率的基准资源,在人道主义数据科学与非洲发展研究中具有开创性价值。
当前挑战
该数据集的核心挑战在于双重维度:其一,在领域问题层面,它直面非洲港口数据长期存在的记录缺失、度量标准不统一与时空覆盖不全等根本性障碍,通过规范化船舶类型分类(散货、集装箱、滚装船等)与货运量字段,为构建港口活动预测模型、优化供应链风险预警及评估贸易政策影响提供了可计算的依据;其二,在构建过程中,Electric Sheep Africa需应对原始数据中非标准缺失值标记、字段类型歧义以及港口标识符异构等问题,通过设定85%的解析成功率阈值实施类型转换,并采用固定随机种子实现80/20的标准化划分,但原始资料未经验证的局限性仍可能导致误报值与定义偏差未被完全修正。
常用场景
经典使用场景
非洲几内亚港口日度活动数据集(africa-ports-guinea)汇聚了自2019年至2026年间该国三大主要港口(科纳克里、卡姆萨尔、达皮隆)的船舶靠泊频次与货物吞吐量估计数据,涵盖集装箱、散货、杂货、滚装船及油轮等多种货运类别。该数据集最经典的使用场景在于构建时间序列预测模型,用以推断港口进港与出港货物量的未来走势,进而为区域物流规划与供应链管理提供数据支撑。研究人员可借助长期日度记录捕捉港口运营的季节性波动与趋势特征,亦可将港口活动指标与国家宏观经济变量相关联,开展贸易流量与经济增长关系的量化分析。数据集结构清晰,包含31个数值与类别特征,经过专业清洗与标准化处理,划分为训练集与测试集,便于直接应用于监督学习任务,如回归分析与分类建模。
解决学术问题
该数据集的核心学术价值在于填补了西非地区港口微观活动数据长期匮乏的空白,解决了发展中国家港口运营研究因高频数据缺失而难以深入开展的困境。传统国际贸易研究多依赖年度或季度宏观贸易统计,难以揭示港口作业的日内波动与短期冲击。africa-ports-guinea数据集以日度为观测单位,提供了船舶靠泊次数与各类货物进出口量的细化记录,使得学者能够量化分析港口拥堵、季节性货运高峰以及突发事件(如罢工、自然灾害)对供应链的即时影响。该数据同时为实证经济学中的贸易便利化研究提供了宝贵的自然实验素材,有助于评估港口基础设施投资与政策干预的实际效益,推动了发展经济学与物流工程交叉领域的定量研究进程。
衍生相关工作
该数据集直接衍生了一系列围绕非洲港口物流与贸易预测的机器学习基准工作。基于该数据,研究者构建了针对港口货物吞吐量的LSTM与Transformer时序模型,并与传统ARIMA方法进行了系统性比较,验证了深度学习模型在捕捉复杂非线性港口活动规律中的优势。此外,围绕该数据集还产生了若干迁移学习研究,探索如何将几内亚港口数据训练的预测模型泛化至其他数据稀缺的西非国家。在特征工程方面,衍生工作引入了天气指数与全球航运干预变量,丰富了港口活动预测的外生驱动因子集合。Electric Sheep Africa团队亦以此数据集为基础,搭建了面向非洲人道主义数据的标准化ML管道,推动了更多类似HDX源头数据的自动化处理与建模管线开源,促进了非洲数字基础设施与数据科学社区的协同发展。
以上内容由遇见数据集搜集并总结生成



