electricsheepafrica/africa-ports-sudan
收藏Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-ports-sudan
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是关于苏丹港口日常活动和货物运输估计的数据集,包含每日港口访问次数、进出货物量(以公吨计)的估计值。每条记录代表国家层面的汇总数据,涵盖2019年至2026年的时间范围,地理范围为苏丹(SDN)。数据集由PortWatch发布,通过HDX获取,并由Electric Sheep Africa整理为适合机器学习的Parquet格式。数据集包含7,950行数据,分为6,360行的训练集和1,590行的测试集。数据包含31列,其中24列为数值型,6列为分类变量。数据集的局限性包括数据来源未经独立验证,可能存在报告错误或定义不一致的问题。
Daily count of port calls, estimates of incoming shipment volumes and outgoing shipment volumes (in metric tons) for ports in Sudan. Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-04-08. Geographic scope: SDN. Curated into ML-ready Parquet format by Electric Sheep Africa.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集基于PortWatch发布、收录于人道数据交换平台(HDX)的原始数据构建而成。Electric Sheep Africa团队通过CKAN API接口获取原始资源,将其转换为Parquet格式,并执行了字段名的规范化处理,统一为小写蛇形命名法。对于常见的缺失值标记(如N/A、null等)被统一替换为NaN,同时依据解析成功率逾85%的阈值,将部分字符串字段自动转换为数值或时间类型。最终,数据集采用固定随机种子划分为80%训练集与20%测试集,并以Snappy压缩的Parquet文件存储,以确保高效读写与机器学习流程的无缝衔接。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集,例如使用`load_dataset("electricsheepafrica/africa-ports-sudan")`命令即可获取预划分的训练集与测试集。加载后,数据可灵活转换为Pandas DataFrame格式,以进行进一步的分析、可视化与建模工作。该数据集适用于表格分类与回归任务,研究者可基于港口呼叫次数、进出口货量等特征,构建预测模型或揭示苏丹港口活动的季节性规律与长期趋势,服务于人道主义物流规划与贸易分析等领域。
背景与挑战
背景概述
苏丹作为非洲之角重要的地缘枢纽,其港口活动是衡量区域经济韧性与人道主义物资流动的关键指标。然而,受冲突与数据基础设施薄弱影响,苏丹港口运力长期缺乏系统性的量化记录。2026年,人道主义数据交换平台(HDX)与PortWatch机构联合发布了《苏丹每日港口活动数据与货物估计》数据集,并由Electric Sheep Africa团队转化为机器学习就绪格式。该数据集覆盖2019至2026年间苏丹三大港口(苏丹港、萨瓦金港、巴沙耶港)的每日船舶停靠次数、进口与出口货物的估算吨位等31项特征,共计7950条记录,旨在为人道主义物流规划、贸易流预测及冲突影响评估提供高精度数据支撑,填补了非洲港口时序数据的系统性空白。
当前挑战
该数据集所解决的领域问题核心在于:苏丹及类似冲突地区缺乏可靠的港口活动监测数据,导致人道主义救援物资调配效率低下、贸易中断风险难以量化。具体挑战包括:1)数据来源依赖单一机构(PortWatch),且未经独立验证,存在报告偏差与定义不一致的潜在风险;2)原始数据通过HDX的CKAN接口下载后,虽经自动化清洗(统一缺失值标记、类型转换),但无法修正底层采集环节的采样偏差或人为误报;3)数据时间跨度虽达8年,但受冲突影响部分时段可能存在记录缺失,且出口数据(如货物分类)存在明显稀疏性(中位数为0),对模型泛化构成挑战。
常用场景
经典使用场景
在苏丹港口物流与人道主义数据分析领域,africa-ports-sudan数据集凭借其涵盖2019至2026年间每日港口挂靠次数、进出口货物估计吨位的精细时序信息,成为探索东非地区贸易动态与基础设施韧性的基准资源。研究者常利用该数据集进行港口活动模式的聚类分析、进出口流量的时序预测,以及基于统计学习方法的异常事件检测。其以国家层面汇聚的港口级数据,兼顾了宏观视野与微观粒度,为理解苏丹港、萨瓦金和巴沙耶尔等关键港口的运营特征提供了可靠的数值基础。
解决学术问题
该数据集有效填补了非洲港口高频运营数据在公开学术语料中的空白,解决了因数据稀缺而难以量化评估港口活动对区域经济、粮食安全及人道主义物资输送影响的研究困境。通过提供标准化、可复现的机器学习就绪格式,它赋能了关于冲突与自然灾害情境下港口韧性建模的实证分析,推动了因果推断方法在贸易中断预测中的应用。其分特征记录(如干散货、集装箱、油轮等分类)使得学者能够从细粒度维度解构港口吞吐量波动的结构因素,从而为发展经济学、交通地理学与人道主义物流学交叉领域提供了关键的数据支撑。
实际应用
在实际应用层面,该数据集可作为国际组织及非政府机构进行苏丹及周边地区供应链风险管理的决策辅助工具。例如,人道主义事务协调厅可利用其预测货物通关瓶颈,优化紧急援助物资的调度路径;航运企业可基于历史挂靠频次与运量波动规律调整航线运力配置;大宗商品贸易商则能借助对出口流量的时序分析预判市场供应紧张程度。此外,该数据还适用于开发面向政策制定者的实时监控仪表盘,通过可视化不同港口作业类别的动态变化,增强对港口运营稳定性与贸易流动可持续性的感知能力。
数据集最近研究
最新研究方向
在非洲之角地缘政治格局持续动荡的背景下,苏丹港口的物流动态成为人道主义援助与区域贸易研究的焦点。africa-ports-sudan数据集以苏丹三座核心港口(苏丹港、萨瓦金港、巴沙耶港)的日度船舶挂靠与货物吞吐量为观测单元,覆盖2019年至2026年间逾七千条记录,为构建战时供应链韧性模型、预测人道主义物资输送瓶颈以及评估红海航线安全风险提供了高粒度时间序列支撑。该数据集与HDX人道主义数据交换平台深度耦合,其机器可读的Parquet格式设计便于接入LSTM、Transformer等深度学习模型,正推动从静态指标统计向动态因果推断的范式跃迁,尤其在苏丹武装冲突导致港口运作中断的极端场景下,为国际救援组织的运筹决策开辟了数据驱动的实证路径。
以上内容由遇见数据集搜集并总结生成



