five

electricsheepafrica/africa-ports-south-africa

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-ports-south-africa
下载链接
链接失效反馈
官方服务:
资源简介:
南非每日港口活动数据和货运量估计数据集,包含南非港口的每日港口呼叫次数、进口和出口货运量(以公吨计)的估计。每行数据代表国家层面的汇总。数据集最后更新于2026年4月8日,地理范围为南非。数据集由Electric Sheep Africa整理为适合机器学习的Parquet格式。

Daily count of port calls, estimates of incoming shipment volumes and outgoing shipment volumes (in metric tons) for ports in South Africa. Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-04-08. Geographic scope: ZAF. Curated into ML-ready Parquet format by Electric Sheep Africa.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自PortWatch发布的南非港口每日活动记录,经由Humanitarian Data Exchange(HDX)平台获取原始数据,并由Electric Sheep Africa团队进行机器学习友好化封装。原始数据通过CKAN API下载后,被转换为Snappy压缩的Parquet格式。过程中执行了列名统一为小写蛇形命名法、缺失值标准化(将N/A、null等标记统一为NaN)、以及基于解析成功率超过85%的阈值将字符串列转换为数值或日期类型等清洗操作。最后,采用固定随机种子(42)将数据按80/20比例划分为训练集(16960条)与测试集(4240条),确保实验的可复现性。
特点
此数据集的核心特色在于其聚焦南非港口物流的人道主义与发展领域应用,提供了2019年至2026年间每日粒度的港口活动与货物吞吐量估算。数据涵盖开普敦、德班、东伦敦三大主要港口,包含31个字段,其中24个数值型变量细腻刻画了集装箱、干散货、杂货、滚装船、油轮等各类船舶的靠港次数及相应的进出口货物吨位。时间跨度的完整性(覆盖疫情前后至近期)与变量构成的系统性,使其成为分析海运贸易波动、供应链韧性及区域经济影响的宝贵资源。
使用方法
该数据集可通过Hugging Face的`datasets`库便捷加载,仅需执行`load_dataset("electricsheepafrica/africa-ports-south-africa")`即可获得已预划分的训练与测试集。返回的数据结构支持直接转换为Pandas DataFrame进行探索性分析,或用于构建表格分类与回归模型。其丰富的港口活动指标与进出口估测变量,可服务于贸易流量预测、港口拥堵分析、以及海运经济指标的时间序列建模等任务。研究人员可直接以Parquet格式使用,无需额外的数据清洗流程。
背景与挑战
背景概述
港口活动数据是理解国际贸易流动与供应链韧性的关键窗口,尤其对于像南非这样的新兴经济体,其港口承载着大量矿产、农产品及工业品的进出口任务。由PortWatch发布、经Electric Sheep Africa于2026年4月整理为机器学习就绪格式的“南非每日港口活动与货运估算数据集”,聚焦于开普敦、德班和东伦敦三大港口的每日船舶靠泊次数及进出口货运量(吨)的时间序列记录。该数据集涵盖2019至2026年的21,200条观测,包含31个变量,旨在为人道主义与开发领域的研究者提供规范、可复用的结构化数据,以支持港口效率分析、贸易流量预测及供应链风险评估等方面的探索。其系统性的清洗与拆分流程,为非洲区域的数据科学应用奠定了重要基础。
当前挑战
该数据集所面临的挑战可归纳为多个层面。在领域问题层面,核心挑战在于如何从零散、多源的港口活动记录中提取出可用于预测与归因分析的可靠特征,例如区分不同类型船舶(干散货、集装箱、油轮等)对整体货运流量的异质性影响,并应对港口活动数据中固有的高波动性与季节性模式。在构建过程中,挑战包括原始数据源自PortWatch且未经独立验证,需统一处理缺失值标记与数据类型转换;自动化清洗无法纠正原始采集中的误报、定义不一致或采样偏差;此外,数据集仅包含国家层面的聚合信息,缺乏港口内具体泊位或航线的细粒度分解,限制了微观层面的分析深度。
常用场景
经典使用场景
在南非港口物流与贸易研究领域,africa-ports-south-africa数据集为分析每日港口活动与货物运量提供了精细化的时间序列数据。该数据涵盖2019年至2026年间开普敦、德班和东伦敦三大港口的船舶到港频次、进出口货物吨位等关键指标,可被用于构建港口吞吐量预测模型、贸易流动态势分析以及供应链扰动评估。其经典的预测任务包括基于历史港口停靠记录和货物量数据,利用回归或时间序列方法估算未来进出港货物规模,或通过分类模型识别港口活动模式。
解决学术问题
该数据集有效解决了非洲港口数据稀缺、粒度粗糙且难以获取的学术困境,填补了南部非洲贸易流量长期高频观测数据的空白。研究人员可借此量化考察港口活动与宏观经济指标的关联性,例如检验船舶停靠频次与进出口贸易额之间的动态因果关系,或评估突发公共事件(如全球供应链危机)对南非港口物流体系的冲击程度。这一资源为发展经济学、交通地理学和人道主义物流领域的实证研究奠定了可复现的数据基础,推动了以数据驱动方式理解非洲港口在全球贸易网络中的角色与韧性。
衍生相关工作
基于该数据集已衍生出多项富有影响力的工作,尤其在数据标准化与机器学习兼容性方面树立了标杆。Electric Sheep Africa团队将其从原始人道主义数据交换平台(HDX)清洗整合为Parquet格式,并设计了规范的训练与测试集划分,降低了非结构化数据的使用门槛。这一成果启发了后续关于非洲港口活动预测的基准研究,催生了基于时序卷积网络或梯度提升回归树的运量预估模型。同时,该数据集也常被纳入跨区域港口比较分析框架,与东非、西非同类数据相结合,共同构建非洲大陆港口效能评估的综合数据库。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务