sat-bbox-metadata-sft-v1

Hugging Face2026-04-28 更新2026-04-29 收录

下载链接：

https://huggingface.co/datasets/NuTonic/sat-bbox-metadata-sft-v1

下载链接

链接失效反馈

官方服务：

资源简介：

sat-bbox-metadata-sft是一个基于现有sat-bbox风格数据集构建的程序化视觉语言模型监督微调数据集，包含Sentinel-2图像块及JSON元数据文件，可选配Mapbox静态图像。该数据集旨在为多模态聊天模型提供高质量的监督信号，支持卫星图像块描述、土地覆盖区域定位、特定土地覆盖类的聚焦描述与缺失检查、利用Mapbox上下文进行跨视角推理等任务。数据格式为JSONL，每条记录包含聊天式消息列表，支持图像与文本交错输入。数据集包含训练、验证和测试分割，规模在10万到100万样本之间，适用于文本生成和图像文本到文本任务，特别关注卫星遥感、视觉语言和指令微调场景。

sat-bbox-metadata-sft is a programmatic vision-language model (VLM) supervised fine-tuning (SFT) dataset with metadata-first approach, built upon existing sat-bbox style datasets (including Sentinel-2 image patches and JSON metadata files for each patch, optionally paired with Mapbox static images). This dataset aims to provide high-quality, production-formatted supervisory signals for multimodal chat models, supporting tasks such as satellite image patch description, land cover region localization (bounding boxes in normalized coordinates), focused description and absence checking for specific land cover classes, cross-view reasoning using optional Mapbox context, and production-level analysis summaries including Sentinel-2 imagery, programmatically generated predicted class raster analysis images, compact TiM-style analysis JSON blocks, and scenario-specific assistant summaries (e.g., land use change, wildfires, flood pulses). The dataset is generated by deterministically synthesizing and transforming metadata files to create diverse supervisory tasks, suitable for instruction fine-tuning and format/behavior alignment, but not as ground truth for scientific measurements. The data format is JSONL, with each record containing a list of chat-style messages supporting interleaved image and text inputs. The dataset includes train, validation, and test splits, with a scale between 100,000 to 1,000,000 samples, suitable for text generation and image-text-to-text tasks, with a particular focus on satellite remote sensing, vision-language, and instruction fine-tuning scenarios.

创建时间：

2026-04-28

原始信息汇总

数据集概述

数据集名称：NuTonic/sat-bbox-metadata-sft-v1

语言：英语

许可：其他（未明确定义通用许可，需确保上游数据分发权）

任务类型：文本生成、图像-文本到文本

数据规模：100K < n < 1M

数据集标签：卫星、遥感、视觉语言、指令微调、定位、边界框、动态世界

数据集摘要

该数据集是一个元数据优先、程序化构建的视觉语言模型（VLM）监督微调（SFT）数据集，基于现有的“sat-bbox”风格数据集树（Sentinel‑2影像块 + 每图块的JSON元数据侧车文件，可选择配对的Mapbox静态图）构建。

其目标是生成高信号、面向生产环境的监督信号，用于多模态聊天模型，涵盖以下任务：

卫星影像块描述
土地覆盖区域的边界框定位（归一化坐标）
特定土地覆盖类别的聚焦描述与缺失检查
跨视角推理（利用可选的Mapbox俯视上下文）
生产式分析摘要，包含：
- Sentinel‑2影像
- 额外的程序化“分析图像”（类似TiM的预测类别栅格）
- 紧凑的TiM风格分析JSON块
- 特定场景的助手摘要（土地利用变化、野火、洪水脉冲等）

该数据集不调用Mapbox API，仅使用输入数据集根目录中已存在的路径。

“程序化”含义

数据集通过确定性、基于规则/合成的方法构建：

将元数据侧车文件转换为多种监督任务
生成TiM风格的分析JSON结构
为每一行生成额外的分析PNG图像（用于分析任务）

这些行旨在用于指令微调和格式/行为对齐，而非作为地面实况的科学测量。

土地覆盖类别

遵循Google Dynamic World v1类别ID（0–8）：

ID	标签
0	水
1	树木
2	草地
3	洪水植被
4	农作物
5	灌木与灌丛
6	建筑
7	裸地
8	雪与冰

数据格式（`data/*.jsonl` 内容）

每行为一个JSON对象，包含 messages 列表，采用兼容常见VLM SFT管道的聊天格式。每个对话包含：

system（可选，用于生产分析行）
user：一个或多个 {"type":"image","image":"<相对路径>"} 部分，后接一个 {"type":"text","text":"..."} 部分
assistant：{"type":"text","text":"..."}

部分行还包含顶层 metadata 对象，例如生产分析行包括：

metadata.sample_id
metadata.task
metadata.analysis_profile
metadata.tile_stem
metadata.split
metadata.image_paths
metadata.analysis_image_path

生成的任务类型

根据构建配置，生成以下任务类型：

production_analysis：
- 2–3张图像（Sentinel‑2 + 可选的Mapbox + 生成的分析图像）
- 用户提示包含紧凑的TiM风格JSON块
- 助手输出为应用特定的分析摘要
caption：
- 1张Sentinel‑2图像
- 助手描述源自侧车文件
grounding_all：
- 1张Sentinel‑2图像
- 助手输出为JSON边界框列表：[{"label": str, "bbox":[x1,y1,x2,y2]}, ...]，坐标归一化到0–1
grounding_per_class：
- 与grounding_all相同，但按主导类别标签进行
class_focus：
- 1张Sentinel‑2图像
- 助手仅描述特定类别的近似比例/布局
absence：
- 1张Sentinel‑2图像
- 助手保守地回答某类别是否实质性存在
cross_view（可选，仅当存在Mapbox静态图路径时）：
- 2张图像：Mapbox静态图 + Sentinel‑2影像块
- 助手关联俯视上下文与卫星/标签信息

仓库目录结构

一个典型的导出数据集根目录包含：

data/：训练/验证/测试JSONL文件
- train.jsonl
- validation.jsonl
- test.jsonl
images/...：卫星影像块（从源树复制或硬链接）
mapbox_stills/...（可选）：仅当源数据集中存在并启用构建配置时包含
analysis_images/...：生成的程序化PNG，用于 production_analysis 行
metadata/：
- sft_metadata_rows/：每个SFT行的侧车文件，包含构建来源和规格
  - *.json

`metadata/sft_metadata_rows/*.json`（行侧车文件）

每个JSONL行的侧车文件包含用于构建该行的字段，不同任务字段可能不同，常见字段包括：

sample_id
task
tile_stem
split
image_paths

对于 production_analysis，侧车文件还包括：

analysis_profile
analysis_image_path
analysis_image_spec（用于渲染PNG的可序列化规格）
sentinel_sidecar（从原始每图块元数据中提取的清理观测数据）

数据集创建方式

从输入数据集根目录构建，该根目录包含：

data/*.jsonl：包含稳定的相对图像路径（如 images/.../<tile_stem>.png，可选 mapbox_stills/.../<poi_id>.png）
metadata/**/*.json：每图块侧车文件，至少包含：
- tile_stem
- poi_id（首选）和/或 split
- caption（用于描述任务）
- class_fractions（用于分析及衍生任务）
- regions（用于定位任务，像素坐标对应模型输出分辨率）

构建器遍历 metadata/**/*.json，通过 tile_stem 关联到 data/*.jsonl，然后根据配置为每个图块生成多个SFT任务。

预期用途

多模态聊天模型的指令微调 / SFT
学习以下内容的稳定格式：
- 描述
- 定位JSON输出
- 特定场景的“分析师”摘要

不适用于：

精确的地球空间测量
科学变化检测验证
法律或运营层面的海事检测声明

已知限制与注意事项

许多目标是程序化的（合成的TiM风格信号和模板化摘要）
定位框源自元数据侧车文件（非本构建器中的人工标注）
跨视角推理依赖输入数据集中是否存在 mapbox_stills/ 路径
提示已过滤，以防止意外训练包含内部大型数据块（某些子串被禁止）

引用

如使用本数据集，请引用数据集仓库及其所衍生的上游来源（您的内部sat-bbox数据集树及任何影像提供商）。

搜集汇总

数据集介绍

构建方式

该数据集基于已有的“sat-bbox”风格数据集树构建，采用元数据优先的程序化生成方法。通过遍历每张Sentinel-2遥感影像对应的元数据侧车文件，从中提取图块标识、类别分数、区域边界等结构化信息，并结合稳定性图像路径进行关联，以确定性规则与合成技术将一条元数据记录转化为多种监督学习任务。在构建过程中不调用外部Mapbox应用程序接口，仅依赖输入数据集根目录中已存在的资源，同时利用渲染程序生成额外的分析图像与紧凑型时序状分析JSON结构，从而形成涵盖描述、定位、分类聚焦、类别缺失检验及跨视图推理的多任务对话格式记录。

特点

该数据集具有高度的结构多样性，支持图文多模态对话模型的指令微调。其包含的训练任务类型丰富，既有针对卫星影像的通用描述与归一化边界框定位，也有面向特定土地覆盖类别的聚焦描述与存在性判断。尤为突出的是，数据集中还引入了生产级分析场景，融合Sentinel-2影像、附加程序化分析图像及分析JSON块，提供面向土地利用变化、野火、洪水脉冲等特定应用的分析摘要。此外，跨视图推理任务能结合可选的Mapbox俯视背景图与卫星影像，增强模型对空间上下文的综合理解能力。所有样本均采用标准聊天格式组织，并配有元数据侧车文件记录构建来源，便于溯源与审计。

使用方法

该数据集可直接用于多模态语言模型的指令微调与格式对齐训练。使用时需按照HuggingFace仓库中的目录结构载入JSONL文件，其中训练集、验证集与测试集已预划分。每个样本包含一个系统提示与多条用户-助手轮次消息，用户消息中可以插入一张或多张图像路径文本及查询语句，助手消息则为对应的文本输出。推荐采用支持交错图像与文本输入的多模态对话框架进行加载与解析，针对定位任务模型需输出符合格式的归一化边界框JSON列表，针对分析任务模型则需生成面向特定场景的总结性文本。开发者还可依据行级别元数据中的任务类型字段对样本进行按类筛选，以灵活适配不同的训练目标。

背景与挑战

背景概述

卫星遥感影像的智能解译是地理空间人工智能领域的重要研究方向，然而现有视觉语言模型在处理卫星影像时面临多模态对齐与指令跟随能力不足的挑战。为此，NuTonic研究团队于近期构建了sat-bbox-metadata-sft-v1数据集，旨在通过元数据驱动的过程化生成范式，为多模态对话模型提供高质量的指令微调数据。该数据集基于Sentinel-2卫星影像与逐瓦片元数据侧车文件，系统性地生产了涵盖描述、定位（归一化坐标边界框）、类别聚焦、缺失检测及跨视角推理等多元任务的监督信号，尤其创新性地引入了类似TiM的分析图像与紧凑型分析JSON结构，支撑土地利用变化、野火、洪峰等场景的专业化分析摘要生成。这一数据集为遥感领域视觉语言模型的格式对齐与行为调优奠定了重要基础。

当前挑战

卫星遥感领域长期面临标注成本高昂与任务多样性不足的双重困境，传统人工标注难以覆盖海量影像中复杂的土地覆盖类别与空间关系。sat-bbox-metadata-sft-v1数据集通过过程化生成策略有效缓解了上述问题：其一，利用元数据侧车文件中的类别分数与区域信息自动生成描述、定位与缺失检测等任务的监督信号，避免了大规模人工标注的低效；其二，构建过程中需处理来自不同源数据的路径一致性、影像格式兼容性以及跨视图推理的可选依赖问题，同时需确保生成的合成分析图像与模板化摘要具有合理的业务表征力，而非作为科学测量基准。此外，如何过滤提示文本中的大段冗余内容以防止模型误学，以及如何在缺乏统一许可证框架下确保上游影像与元数据的合规使用，亦是该数据构建面临的实践挑战。

常用场景

经典使用场景

在遥感与视觉语言模型的交叉领域中，sat-bbox-metadata-sft-v1 数据集为多模态对话模型的指令微调提供了高度结构化的监督信号。其经典用法涵盖卫星影像描述生成、基于归一化坐标的边界框定位、特定土地覆盖类别的聚焦描述与存在性验证，以及跨视角推理任务。通过程序化方式将元数据转化为多样化的训练样本，该数据集特别适用于培养模型输出稳定格式的能力，例如生成JSON格式的定位结果或面向特定分析场景的摘要文本。

解决学术问题

该数据集有效解决了遥感领域标注数据稀缺且难以规模化扩展的学术难题。传统上，获取带有精确边界框和语义描述的大规模遥感图像标注成本高昂，而本数据集通过程序化生成策略，从已有的卫星图块元数据中自动派生多任务监督信号，显著降低了对人工标注的依赖。其意义在于推动了视觉语言模型在卫星图像理解中的结构化输出能力研究，特别是在土地覆盖分类、定位与推理任务中，为模型提供了可复现、规模化的训练基准，从而加速了遥感智能分析领域从单一分类向多模态交互式理解的范式转变。

衍生相关工作

该数据集的出现催生了一系列相关研究工作，主要集中在基于指令微调的遥感视觉语言模型（VLM）及其评估基准。研究者借鉴其程序化构建思想，开发了面向特定应用场景的衍生数据集，例如针对建筑物损害评估或农作物长势监测的定制化微调集。此外，其结构化输出格式（如TiM形状的JSON块与分析图像）启发了遥感领域专用语言模型提示模板的设计，推动了对模型在零样本变化检测、跨视角地理定位等任务中推理能力的系统评估，形成了从数据构建到模型评估的完整研究链条。

以上内容由遇见数据集搜集并总结生成