five

electricsheepafrica/africa-ports-sao-tome

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-ports-sao-tome
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含圣多美和普林西比港口的日常活动数据和货物运输估计(以公吨计)。每行数据代表国家层面的汇总信息,包括港口呼叫次数、进口和出口货物量的估计值。数据集共2650行,31列(24个数值型,6个类别型),已分为训练集(2120行)和测试集(530行)。数据涵盖2019年至2026年的时间范围,包含港口ID、港口名称、国家、ISO3代码等地理信息,以及各类货物(如集装箱、干散货、普通货物等)的港口呼叫次数和进出口量。数据最初由PortWatch发布,后由Electric Sheep Africa整理为适合机器学习的Parquet格式。

This dataset contains daily port activity data and shipment estimates (in metric tons) for ports in Sao Tome and Principe. Each row represents country-level aggregates, including counts of port calls and estimates of incoming/outgoing shipment volumes. The dataset consists of 2,650 rows and 31 columns (24 numeric, 6 categorical), split into train (2,120 rows) and test (530 rows) sets. It covers the period from 2019 to 2026 and includes geographic information (port ID, port name, country, ISO3 code) as well as port call counts and import/export volumes for various cargo types (container, dry bulk, general cargo, etc.). Originally published by PortWatch, the data was curated into ML-ready Parquet format by Electric Sheep Africa.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自PortWatch发布的圣多美和普林西比港口日活动数据与货运量估算信息,经由Electric Sheep Africa团队通过HDX平台的CKAN接口获取原始数据,并以Parquet格式进行再封装。在数据清洗过程中,团队将列名统一转换为小写蛇形命名法,将常见缺失值标记统一为NaN,并根据解析成功率超过85%的阈值将一列数据从字符串类型转换为数值或日期时间格式。最终,数据集以80/20的比例随机划分为训练集与测试集,并保存为Snappy压缩的Parquet文件,确保了数据的可复现性与高效存储。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集,调用`load_dataset("electricsheepafrica/africa-ports-sao-tome")`即可获取训练与测试拆分,并支持转为Pandas DataFrame进行后续分析。该数据集适用于表格分类与回归任务,例如预测港口活动趋势或货运量变化。建议用户在应用前参考原始HDX页面中的方法论说明,以理解数据收集的局限性与潜在偏差,从而在机器学习建模中合理运用这批港口活动时空数据。
背景与挑战
背景概述
圣多美和普林西比每日港口活动与货运量数据集由PortWatch机构发布,并经Electric Sheep Africa于2026年4月重新整理为机器学习就绪的Parquet格式,旨在为非洲人道主义与发展研究提供结构化时序数据。该数据集涵盖了2019年至2026年间圣多美港口的每日船舶停靠次数、进口与出口货运估算量(以公吨计),共包含2650条国家层面的聚合记录,涉及31个特征变量。作为一项填补非洲小岛屿发展中国家港口数据空白的资源,该数据集为分析海上贸易动态、评估物流瓶颈及制定人道主义援助策略提供了量化基础,尤其在数据稀缺的非洲区域具有重要应用价值。
当前挑战
该数据集所解决的领域问题在于,非洲港口特别是小岛国的日常运营数据长期匮乏,限制了贸易建模、供应链优化及灾害响应研究。构建过程中面临的挑战包括:原始数据来源于PortWatch,未经独立验证,存在报告偏差与定义不一致的风险;自动化清洗流程虽能统一缺失值并转换数据类型,但无法纠正原始采样偏倚或错误记录;此外,数据仅覆盖单一国家且部分货运类型(如集装箱、散货)的停靠次数为零,特征稀疏性可能削弱模型的泛化能力。这些因素要求在利用该数据进行预测或分类任务时,需谨慎处理数据质量与代表性局限。
常用场景
经典使用场景
圣多美和普林西比港口日度活动数据集(africa-ports-sao-tome)在海运物流与智能交通领域具有广泛的应用潜力。受限于非洲小岛屿国家港口基础设施薄弱与统计资料匮乏的现状,该数据集通过系统记录2019年至2026年间港口靠港频次、进出口货物吨位等31个标准化变量,为刻画热带小型经济体的海运节律提供了珍贵的计量基础。研究者可将其作为时间序列预测的标准基准,用以验证码头吞吐量预测模型在处理高度零膨胀和稀疏数据时的鲁棒性,从而弥合发达港口与中国洋经济体之间的数据鸿沟。
解决学术问题
该数据集有效破解了非洲微型岛国港口统计长期存在的样本稀疏与颗粒度粗糙难题,为发展经济学与灾害响应研究领域开辟了新的定量路径。学术上,它支撑着关于极端背景下供应链脆弱性的因果推断——例如通过对比进口散货与油轮靠泊的月际波动,辨别雨季与旱季对物资补给模式的异质性冲击。同时,数据集提供的精细货物分类(杂货、滚装船、油轮)使学者得以区分刚需消费品与能源贸易的不同响应弹性,深化对岛屿经济体外部依存度的理论认知,从而为构建弹性供应链评估框架注入实证养分。
实际应用
在实际领域,该数据集的发布为人道主义援助与应急物流的决策支持系统注入了鲜活的数据动力。人道主义组织可借助其日度口径的进出口估计量,在飓风或疫情等突发危机中快速评估海上补给通道的吸纳能力,优化救援物资的调配节奏。圣多美港务局则能够通过回溯散货与集装箱的运力历史规律,制定更具弹性的卸货排期与仓储扩容方案,避免因船舶拥堵引发关键物资断供。此外,贸易金融平台亦可调用该数据集校准小型经济体的实时贸易指数,为大宗商品定价与信贷风险评估提供可靠依据。
数据集最近研究
最新研究方向
该数据集聚焦于圣多美和普林西比港口日度活动与货运量估算,为非洲小岛屿发展中国家的人道主义物流与贸易弹性研究提供了高时间分辨率的量化基础。前沿方向包括利用时序预测模型解析港口停靠频率与进出口吨位之间的非线性关联,结合极端气候事件(如风暴、干旱)对供应链中断风险进行早期预警。当前热点在于整合该数据与非洲之角及西非区域贸易流数据,构建跨港口的动态供需模型,以支持人道主义援助物资的实时调度优化。其意义在于填补了东非岛国港口活动公开数据的空白,为联合国世界粮食计划署等机构评估海上通道脆弱性并制定韧性策略提供了可复现的机器学习基准。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务