Tonic/oceanscout-sft-v1-duplicate

Name: Tonic/oceanscout-sft-v1-duplicate
Creator: Tonic
Published: 2026-04-25 07:52:57
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/Tonic/oceanscout-sft-v1-duplicate

下载链接

链接失效反馈

官方服务：

资源简介：

OceanScout SFT是一个基于Sentinel-2卫星数据的海洋监测数据集。该数据集通过搜索时间序列的STAC（空间时间资产目录）对来选择稳健的场景和元数据，但每个训练行使用每个图块的单个后场景RGB图像芯片。NDWI（归一化水体指数）用于定义水体，水面上明亮的目标被识别为可能的船只候选。每个图块都有一个海洋标题行，如果存在检测结果，还会有一个接地行。数据集包含训练、验证和测试三个部分，分别有38、16和15条记录，总计69条。数据集的输入包括可选的事件JSON/CSV文件和CLI命令。数据集布局包括JSONL文件、PNG图像芯片和元数据JSON文件。数据集的划分基于事件ID的稳定哈希值。数据集还提供了如何本地重新生成和上传到HuggingFace Hub的指南，并说明了环境变量的使用。数据集的局限性包括仅基于光学Sentinel-2数据、检测和标题是启发式的而非真实标签等。

OceanScout SFT is a maritime monitoring dataset based on Sentinel-2 satellite data. The dataset searches for temporal STAC pairs to select robust scenes and metadata, but each training row uses a single post-scene RGB image chip per tile. NDWI (Normalized Difference Water Index) is used to define water, and bright targets on water suggest vessel candidates. Each tile has a maritime caption row and, when detections exist, a grounding row. The dataset is divided into train, validation, and test splits, containing 38, 16, and 15 records respectively, totaling 69. Dataset inputs include optional event JSON/CSV files and CLI commands. The dataset layout consists of JSONL files, PNG image chips, and metadata JSON files. Splits are assigned based on a stable hash of the event ID. The README also provides instructions for locally regenerating the dataset and uploading it to the HuggingFace Hub, along with environment variable details. Limitations of the dataset include being optical-only Sentinel-2 data, and detections and captions being heuristic rather than operational truth labels.

提供机构：

Tonic

搜集汇总

数据集介绍

构建方式

海洋监测中，船舶目标的自动识别对于海上交通安全与资源管理至关重要。OceanScout SFT数据集基于欧洲航天局Sentinel-2卫星影像构建，通过处理时间序列STAC影像对以获取稳健的场景元数据，最终为每个瓦片选取单一灾后场景的RGB影像块作为训练样本。归一化差异水体指数（NDWI）用于界定水域范围，水面上亮度较高的目标被判定为潜在的船舶候选对象。每个地理瓦片均包含一条海洋场景描述文本行，而当检测到候选目标时，额外添加一条包含空间定位信息的辅助文本行。数据集共处理44个瓦片，生成69条JSONL格式样本，并依据事件ID的稳定哈希值划分为训练集、验证集和测试集。

特点

该数据集专为视觉语言模型（VLM）的监督微调设计，具有鲜明的海洋遥感领域特色。其核心特点在于利用光学遥感影像与启发式检测算法相结合，针对水面船只目标生成自然语言描述与空间定位标注。每个样本由系统、用户和助手角色构成的多轮对话消息组成，影像采用PNG格式的RGB影像块，通过相对路径引用。每个样本均配备JSON格式元数据文件，记录场景标识、边界框、可选的候选区域信息及影像轮廓标签。数据构建完全基于公开可用的Element84 Earth Search STAC服务，无需依赖Google Earth Engine或Mapbox等付费API，具有良好的可复现性。

使用方法

使用者可通过运行项目仓库中的build_lfm_vl_oceanscout_sft.py脚本在本地复现数据集构建过程，支持自定义事件文件或使用预设沿海地点作为采样中心，并通过步长参数控制瓦片密度。生成的JSONL文件位于data/目录下，可直接用于VLM模型的训练与评估。若需上传至Hugging Face Hub，需配置HF_TOKEN环境变量并指定目标仓库标识。数据集的输入列表采用标准对话格式，影像路径与文本内容分离，便于与各类视觉语言模型框架集成。值得注意的是，该数据集的标注基于启发式阈值算法，并非经过人工验证的真实标签，用户应将其视为船舶探测能力的示意性参考而非操作级真值。

背景与挑战

背景概述

海洋遥感领域长期面临从海量卫星影像中自动识别与描述船舶目标的挑战。OceanScout SFT数据集由NuTonic团队于2024年构建，依托欧洲空间局的Sentinel-2卫星L2A级影像，通过概率化的时空候选点采样与标准化水体指数（NDWI）阈值分割，生成带地理定位信息的船舶候选区域及其文字描述。该数据集聚焦于将视觉语言模型（VLM）引入海洋监视任务，提供了69条训练/验证/测试样本，开创性地将遥感变化检测与自然语言生成相结合，为近海目标监测与应急响应研究提供了新的基准资源。

当前挑战

该数据集面临的核心挑战体现在三个层面：首先，光学遥感数据受云层覆盖与卫星重访周期的物理限制，导致时序影像中频繁出现有效事件缺失或变化掩膜空洞；其次，依赖启发式指数阈值（如NDWI）生成的检测标注本质上是概率性候选，缺乏实地验证的绝对真值，模型输出必须遵循保守措辞（如‘候选’、‘置信度限定’）以避免误导；最后，数据构建过程中需协调STAC时空影像对搜索、语义化标注生成与多模态样本组织，在44个瓦片范围内实现训练/验证/测试集的哈希稳定分割，对管道鲁棒性要求极高。

常用场景

经典使用场景

海洋遥感领域的研究长期受困于大规模、高质量标注数据的匮乏，尤其是针对近岸及开阔水域中复杂目标的精细化感知任务。OceanScout SFT数据集基于Sentinel-2多光谱卫星影像，通过归一化差异水体指数（NDWI）精准界定水域范围，并利用水域中高亮目标响应特征自动识别潜在船只候选区域。该数据集最经典的用途在于为视觉语言模型（VLM）提供海洋场景的监督微调（SFT）样本，每个样本包含经过精心筛选的单景RGB影像切片、系统用户助手的对话结构以及可选的区域标注信息，从而支持模型学习从海洋图像中提取结构化语义知识并生成准确的自然语言描述。

实际应用

在实际部署层面，OceanScout SFT所支撑的模型可集成至海上态势感知系统，实时处理来自Sentinel-2或其他光学遥感卫星的时序影像流，自动识别并标注疑似船只目标，生成结构化的海洋交通报告。该系统可服务于海事监管机构的海域动态监控、港口管理部门船舶进出港统计，以及渔业执法中对非法捕捞活动的初步筛查。此外，由于数据构建流程完全基于开源STAC协议与公开卫星影像，用户能够低成本复现并扩展训练数据，使得模型可灵活适配不同地理区域与季节特性，从而在海洋救援、海洋生态监测及海上风电设施巡检等场景中展现广泛的应用潜力。

衍生相关工作

该数据集的出现催生了一系列旨在提升海洋遥感语言模型鲁棒性与跨场景泛化能力的研究工作。基于其启发式标注思想，研究人员开始探索将时序差分影像、雷达数据融合与多光谱指数相结合，构建更具判别力的船只检测先验。同时，数据集中保守措辞的标注策略启发了面向低标签质量场景下的自信度校准与不确定性量化方法，相关成果已应用于海上异常行为检测与航线预测任务。此外，该数据集的构建流程被其他地理空间领域借鉴，衍生出针对海岸线变化监测、藻华爆发预警及海洋漂浮垃圾识别等专题的视觉语言数据集，逐步形成了一个以低成本、可复现为特色的海洋遥感SFT数据集生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集