five

NuTonic/oceanscout-sft-v1

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/NuTonic/oceanscout-sft-v1
下载链接
链接失效反馈
官方服务:
资源简介:
OceanScout SFT是一个基于Sentinel-2卫星图像的海事SFT样本数据集,主要用于目标检测和视觉语言模型微调(VLM-SFT)。数据集通过NDWI(归一化差异水指数)定义水域,并在水域上检测船只候选目标。每个训练样本包含单个场景的RGB图像块,并附带海事描述文本和检测到的目标区域(如果存在)。数据集分为训练集(1355条)、验证集(173条)和测试集(202条),总计1730条记录。数据集布局包括JSONL格式的训练文件、PNG图像和元数据JSON文件。数据集的生成和上传过程详细说明了所需的命令行参数和环境变量。

OceanScout SFT is a maritime SFT sample dataset based on Sentinel-2 satellite imagery, primarily used for object detection and vision-language model fine-tuning (VLM-SFT). The dataset defines water bodies using NDWI (Normalized Difference Water Index) and detects vessel candidates on water. Each training sample includes a single post-scene RGB chip and is accompanied by maritime caption text and detected regions (if any). The dataset is divided into train (1355 records), validation (173 records), and test (202 records) splits, totaling 1730 records. The dataset layout includes JSONL files for training, PNG images, and metadata JSON files. The README provides detailed instructions for dataset generation, upload, and required environment variables.
提供机构:
NuTonic
搜集汇总
数据集介绍
main_image_url
构建方式
海洋监视数据分析领域,对基于光学遥感影像的船舶目标检测与描述任务提出了迫切需求。OceanScout SFT数据集应运而生,其构建过程依托Sentinel-2多光谱卫星影像,通过时序STAC影像对搜索策略筛选稳健场景,继而采用单一时相后场景RGB切片作为训练样本。数据集利用归一化差异水体指数精准界定水域范围,并借助亮目标在暗水体背景上的显著对比度,自动识别潜在的船舶候选区域,最终生成包含海事场景描述与空间定位信息的视觉-语言微调样本。
使用方法
使用者可依托统一的JSONL格式文件加载数据,每条记录包含标准的messages对话结构,其中图像通过相对路径引用。该数据集专为视觉语言模型的监督式微调设计,可直接作为训练输入。为复现完整数据构建流程,用户需在nutonic仓库根目录下执行构建脚本,并可通过命令行参数灵活控制切片步长、事件来源等关键配置。上传至HuggingFace Hub时,需提供具有写入权限的访问令牌,也可利用环境变量简化凭证管理。
背景与挑战
背景概述
海洋场景理解是遥感智能解译领域的前沿阵地,对海事监测、航道安全及海洋资源管理具有不可替代的基石作用。随着深度学习技术的蓬勃发展,构建高质量的视觉语言数据集已成为驱动航海领域专用大模型能力跃升的关键路径。在此背景下,OceanScout SFT数据集于2023年由NuTonic团队发起,依托Sentinel-2卫星影像与标准化STAC时空管线,创造性生成海洋目标视觉语言微调样本。该数据集的核心研究问题聚焦于如何利用归一化水体指数(NDWI)与时空配对策略,从大规模多光谱遥感数据中自动提取并标注船舶候选区域及其文字描述,从而为视觉语言模型的海洋场景指令遵循与细粒度定位能力提供训练支撑。OceanScout SFT以1730条训练验证样本覆盖1028个瓦片,开创性地将海事情境下的语义描述与目标检测相结合,推动了遥感领域从纯视觉分析向多模态推理的范式转移,对海事智能监测系统的学术研究与工程应用产生了重要影响。
当前挑战
OceanScout SFT应对的核心领域挑战在于,海洋遥感场景中目标尺度微小、背景光谱相似且环境动态多变,传统图像分类方法难以有效区分船舶与浪花等干扰物。该数据集通过NDWI提取水体并锁定高亮候选区域,结合时空配对消除云层与季节影响,显著提升了检测鲁棒性,但光学影像固有的云覆盖与卫星重访间隙仍会导致事件遗漏率居高不下,直接制约了模型的泛化性能。在构建过程中,团队面临的核心难题包括:如何基于启发式阈值与指数计算在无人工标注条件下生成可靠的目标框,避免假阳性污染;如何设计稳定的分割哈希机制确保同事件始终归属同一子集以保障评估公平性;以及如何在有限算力和网络约束下高效编排STAC接口进行大规模瓦片采集与元数据关联。这些挑战通过保守的文本表述与区域元数据侧车得以缓解,但检测结果的准确性与语义描述的精细度仍存在进一步提升空间。
常用场景
经典使用场景
海洋遥感领域的研究者广泛使用OceanScout SFT数据集进行视觉-语言模型(VLM)的监督微调,特别是在舰船目标检测与海洋场景理解任务中。该数据集基于Sentinel-2卫星多光谱影像,通过归一化差异水体指数(NDWI)精准分割水体区域,并利用亮度特征从水体中自动提取疑似舰船目标候选区域。每幅影像配备了详尽的海洋场景描述(caption)以及对舰船候选框的定位注释(grounding),使模型能够同时学习高级语义理解与精细空间定位能力,为海洋智能监测提供了标准化的训练与评估基准。
解决学术问题
OceanScout SFT数据集有效解决了海洋遥感领域长期存在的两大学术难题:一是高质量、大规模、带标注的海洋场景训练数据的匮乏,限制了深度学习模型在复杂海洋环境下的泛化能力;二是视觉与语言跨模态信息融合在遥感下游任务中的应用探索不足。该数据集通过自动化的数据构建流程,基于时间序列STAC影像对完成稳健场景筛选与元数据提取,并采用启发式方法自动生成语义描述与目标定位标签,大幅降低了人工标注成本。其问世推动了视觉语言模型在海洋遥感中的适配研究,为多模态理解、零样本或少样本目标检测等前沿方向提供了关键数据支撑。
实际应用
在实际应用中,OceanScout SFT数据集首要服务于智慧海洋和海事监管系统。基于其微调的VLM模型可部署于卫星影像实时分析平台,自动识别繁忙航道上的可疑船只,协助港口管理部门监测非法捕鱼、走私或未经授权的作业行为。此外,该数据集还可用于构建多时相海洋变化检测系统,例如追踪渔业活动强度、评估海上交通密度变化,以及监测自然灾害(如海啸或石油泄漏)后的船只分布异常。其轻量化的数据格式与高效的推理能力使其适合边缘计算环境,助力在轨卫星或无人机等算力受限平台实现智能化海洋态势感知。
数据集最近研究
最新研究方向
OceanScout SFT v1数据集聚焦于遥感海洋监视领域的前沿探索,特别是利用Sentinel-2影像构建视觉语言模型(VLM)的监督微调样本。该数据集通过NDWI水体指数与亮度目标检测自动识别船只候选区域,并生成海洋场景的图文对与定位标注,服务于智能海事监控与海上交通分析。当前研究热点围绕利用此类数据集推动遥感基础模型在海洋目标探测、动态事件响应以及非协作船只追踪中的应用,显著提升对广阔海域的自动化态势感知能力。其开源发布为因果推理、多模态对齐及少样本泛化研究提供了规范化测试基准,在海洋安全、非法捕捞监测及环境合规评估中具有深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作