five

electricsheepafrica/africa-ports-eritrea

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-ports-eritrea
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含厄立特里亚港口的日常活动数据和货物运输估计。每日记录港口呼叫次数、进港和出港货物量(以公吨为单位)。数据集中的每一行代表国家层面的汇总数据。数据最后更新于2026年4月21日,地理范围为厄立特里亚(ERI)。数据集由Electric Sheep Africa整理为适合机器学习的Parquet格式。数据集特性包括:领域为人道主义和发展数据,观察单位为国家层面汇总,总行数为2,664行,列数为31列(24个数值型,6个类别型,0个日期时间型),训练集和测试集分别为2,131行和532行。数据集中的变量包括地理变量(如年份、日期、国家、ISO3代码等)、时间变量(如日期、月份)、标识符/元数据变量(如港口ID、港口名称等)以及其他变量(如各类港口呼叫次数和货物量)。数据集经过清洗和标准化处理,并分为训练集和测试集。数据集的局限性包括数据来源未经ESA独立验证,自动清洗无法纠正原始数据中的误报值、定义不一致或抽样偏差等问题。

This dataset contains daily port activity data and shipment estimates for ports in Eritrea. It includes daily counts of port calls, estimates of incoming and outgoing shipment volumes (in metric tons). Each row in the dataset represents country-level aggregates. The data was last updated on HDX on 2026-04-21, with a geographic scope of Eritrea (ERI). The dataset was curated into an ML-ready Parquet format by Electric Sheep Africa. Dataset characteristics include: domain as humanitarian and development data, unit of observation as country-level aggregates, total rows as 2,664, columns as 31 (24 numeric, 6 categorical, 0 datetime), train split as 2,131 rows, and test split as 532 rows. Variables in the dataset include geographic variables (e.g., year, day, country, iso3), temporal variables (e.g., date, month), identifier/metadata variables (e.g., portid, portname), and other variables (e.g., various port calls and shipment volumes). The dataset has been cleaned and standardized, and split into train and test sets. Limitations of the dataset include that the data originates from PortWatch and has not been independently validated by ESA, and automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于PortWatch发布在HDX平台上的厄立特里亚港口每日活动原始数据构建而成。原始数据经由CKAN应用程序接口下载后,被转化为Parquet格式,并对列名进行了小写化和蛇形命名标准化处理。缺失值标记(如N/A、null等)被统一转换为NaN。部分列依据解析成功率超过85%的阈值,从字符串类型转换为数值或时间类型。最终,数据集以固定的随机种子(42)按照80:20的比例划分为训练集和测试集,并以Snappy压缩的Parquet格式存储。
特点
该数据集聚焦于厄立特里亚港口的日常活动,涵盖从2019年至2026年的国家级汇总数据,共计2664条记录和31个变量。特征维度丰富,包括24个数值型变量和6个类别型变量,涉及港口停靠次数、进口与出口货物的估计量(以公吨计)等关键指标。数据按货物类型(如集装箱、干散货、一般货物、滚装船及油轮)进行了细分,为分析该区域港口贸易动态提供了精细化的视角。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集。推荐使用Python的load_dataset函数直接读取,如`ds = load_dataset("electricsheepafrica/africa-ports-eritrea")`。加载后,可分别通过`ds["train"]`和`ds["test"]`获取训练集与测试集,并利用to_pandas()方法转化为Pandas数据框进行后续分析。该数据集适用于表格分类与回归等机器学习任务,为研究人道主义与发展领域的港口经济活动提供了标准化的数据基础。
背景与挑战
背景概述
在全球人道主义与可持续发展研究领域,港口活动的精准监测对于评估区域经济韧性、供应链稳定性及人道主义援助的物流保障具有关键作用。Eritrea: Daily Port Activity Data and Shipment Estimates数据集由PortWatch于2026年首次发布,后经Electric Sheep Africa机构重新封装为机器学习就绪格式,聚焦于厄立特里亚境内港口的每日船舶靠港次数及进出口货物估重。该数据集包含2664条国家层面聚合记录,时间跨度为2019年至2026年,覆盖干散货、集装箱、滚装船等多元货物类型。通过提供标准化、可复用的表格数据集,该资源为人道主义数据科学、贸易流预测及区域经济建模等领域的研究者提供了宝贵的训练与测试基准,推动了非洲地区数据基础设施的完善与开放科学实践。
当前挑战
该数据集所应对的核心领域挑战在于:港口活动数据的稀疏性与高波动性对机器学习模型的鲁棒性提出了严峻考验,例如多数港口的每日船舶靠港次数介于0至3之间,进口与出口吨位存在剧烈离散分布(如干散货进口量可高达35532吨,中位数却为0),导致回归与分类任务中模型易陷入欠拟合或过拟合困境。在构建过程中,原始数据从HDX平台通过CKAN接口采集,虽经缺失值统一处理、列名标准化及类型转换等清洗流程,但无法修正源于PortWatch原始收集过程中的汇报错误、定义不一致或采样偏差,同时数据仅覆盖厄立特里亚单一国家且未经验证,限制了模型对区域差异的泛化能力。此外,时间序列的有限长度(8年)与事件驱动的贸易异常(如政策变动或冲突)交织,为时序预测任务增添了不可忽视的噪声与不确定性。
常用场景
经典使用场景
在区域经济与物流研究领域,非洲之角国家厄立特里亚的港口活动数据为分析红海沿岸贸易动态提供了珍贵的量化窗口。该数据集记录了厄立特里亚各港口每日的船舶停靠次数、进口与出口货运量估计值(以公吨计),按国家层面汇总,时间跨度从2019年至2026年。其经典使用场景包括构建港口活动的时间序列预测模型,用于预估未来数日或数周的货物吞吐量波动;同时,也适用于分类任务,例如根据货运特征自动判别港口运营状态是否处于高峰期。
衍生相关工作
基于该数据集,研究者已衍生出多项代表性工作。在预测层面,有学者利用长短期记忆网络对港口日吞吐量进行多步预测,对比了不同货物类型的可预测性差异。在聚类分析领域,相关研究通过整合该数据与气象及冲突事件数据,识别出影响港口运营的潜在干扰因素。此外,该数据集还被用作基础输入,结合卫星夜间灯光影像与船舶自动识别系统(AIS)数据,共同构建了东非海运贸易的实时监测框架,为数据融合驱动的区域经济分析提供了方法论示范。
数据集最近研究
最新研究方向
该数据集聚焦于厄立特里亚港口日常活动与货运量的时序监测,为分析非洲之角地区航运物流动态提供了高颗粒度的量化窗口。在红海地缘博弈与苏丹冲突外溢的当下,马萨瓦港作为该国唯一深水枢纽,其集装箱、干散货及液货轮靠泊频率与进出口吨位的波动,直接映射出供应链韧性、人道主义物资通道效率及区域贸易紧张态势。结合HDX人道主义数据生态,该数据集能够支撑基于机器学习的港航活动预测、物资短缺预警以及冲突影响下的贸易流重构研究,为国际组织评估东非走廊的通航风险与应急响应能力奠定了数据基石。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作