five

海事智能数据集

收藏
arXiv2025-09-16 更新2025-09-18 收录
下载链接:
http://arxiv.org/abs/2509.13047v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由3.2亿条自动识别系统(AIS)船舶跟踪记录转化而来,包含了21,543个高质量的问题和答案对,平均每个包含73,821个tokens。数据集由GPT-4o和o3-mini模型生成,涵盖了六个不同的类别,包括轨迹预测、运动分析、船舶计数、数据分析、模式检测和异常检测。该数据集旨在为海事安全、安全运营和船舶交通管理系统提供高效、经济的解决方案,通过小型语言模型进行微调,实现高精度和低成本的海事智能分析。

This dataset is derived from 320 million ship tracking records of the Automatic Identification System (AIS), and contains 21,543 high-quality question-answer pairs, with an average of 73,821 tokens per pair. Generated using GPT-4o and o3-mini models, this dataset covers six distinct categories: trajectory prediction, motion analysis, vessel counting, data analysis, pattern detection, and anomaly detection. It aims to provide efficient and cost-effective solutions for maritime safety, security operations, and vessel traffic management systems, enabling high-precision and low-cost maritime intelligent analysis through fine-tuning small language models.
提供机构:
弗吉尼亚理工大学
创建时间:
2025-09-16
搜集汇总
数据集介绍
main_image_url
构建方式
海事智能数据集的构建采用了前沿的多模型合成生成策略,通过GPT-4o和o3-mini交替处理32亿条自动识别系统(AIS)船舶追踪记录,转化为21,543对高质量的问答数据。该过程结合了地理区域、时间周期和船舶类型等多维度分层采样,确保数据覆盖港口密集区与开阔水域等多样化场景,有效避免了单一模型偏差导致的过拟合问题。
特点
该数据集具备高度的领域专业性与结构复杂性,平均每对问答包含73,821个标记,涵盖轨迹预测、异常检测、运动分析等六类海事智能任务。其多模型生成机制引入了推理多样性,支持模型在保持75%准确率的同时,显著降低部署成本。数据格式以JSON为主,兼容长上下文处理,适用于精细化海事分析与实时决策场景。
使用方法
数据集主要用于监督微调小型语言模型(如Qwen2.5-7B),通过QLoRA技术优化训练效率。用户可结合PostgreSQL数据库检索AIS记录,构建包含时空上下文的查询输入,模型输出为结构化JSON响应,适用于船舶流量统计、行为模式识别及安全监控等实际应用。评估需依赖数值准确性验证(误差阈值10%),传统NLP指标不适用,强调领域特异性性能评估。
背景与挑战
背景概述
海事智能数据集由弗吉尼亚理工大学的诺兰·普拉特与日立万塔联邦的普拉吉扬斯米塔·纳亚克于2025年联合创建,旨在解决海事领域专业语言模型训练数据稀缺的核心问题。该数据集基于美国海岸警卫队和国家海洋与大气管理局提供的32亿条船舶自动识别系统(AIS)原始记录,通过多模型合成生成技术转化为21,543对高质量问答数据。其创新性体现在将时空轨迹数据转化为语言模型可理解的推理任务,显著提升了船舶行为分析、异常检测与态势感知能力,为海事安全与智能决策系统提供了关键数据支撑。
当前挑战
该数据集首要挑战在于解决海事领域复杂时空推理问题:需从高噪声AIS数据中提取船舶轨迹模式、识别异常行为并生成多维度语义描述。构建过程中面临三重技术瓶颈:一是从亿级数据中高效采样代表性船舶上下文,需平衡地理分布、船舶类型与时间维度;二是确保合成问答的多样性与准确性,需融合技术性、操作性与调查性等多种语言风格;三是通过GPT-4o与o3-mini多模型交替生成策略防止过拟合,避免模型继承单一生成源的局限性。
常用场景
经典使用场景
海事智能数据集在船舶行为分析与轨迹预测领域展现出卓越价值,其多模态合成生成机制能够精准模拟复杂海域环境下的航行模式。该数据集通过融合GPT-4o与o3-mini双模型生成策略,构建了涵盖轨迹预测、异常检测、船舶计数等六类任务的问答对,为研究者提供了检验模型在动态海域场景中推理能力的标准测试平台。特别是在处理高密度港口水域与远洋航线的多维数据时,该数据集能有效支撑模型对时空关联性的深度解析。
实际应用
在实际海事运营中,该数据集支撑的模型已应用于船舶交通管理系统与海上安全监控平台。通过实时解析AIS数据流,系统能自动识别偏离航线的异常船舶、预测港口区域交通拥堵态势,并为海岸警卫队提供决策支持。其低成本部署特性使得中小型港口管理机构也能获得专业级海事情报分析能力,在搜救行动、走私监控和航道优化等领域产生显著效益,体现了人工智能技术在实际工业场景中的落地价值。
衍生相关工作
该数据集催生了多个重要研究方向,包括基于神经符号计算的混合推理框架Scallop在海事领域的应用探索,以及针对合成数据质量评估的新方法论。其多模型生成策略被扩展应用于金融、医疗等垂直领域,形成了领域特异性小语言模型的技术体系。相关工作还推动了长上下文窗口优化算法YaRN的改进,并在自动评估指标设计方面引发了对传统NLP度量标准适用性的重新审视,为专业领域AI评估建立了新范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作