sat-bbox-metadata-sft-v1
收藏数据集概述
数据集名称:NuTonic/sat-bbox-metadata-sft-v1
语言:英语
许可:其他(未明确定义通用许可,需确保上游数据分发权)
任务类型:文本生成、图像-文本到文本
数据规模:100K < n < 1M
数据集标签:卫星、遥感、视觉语言、指令微调、定位、边界框、动态世界
数据集摘要
该数据集是一个元数据优先、程序化构建的视觉语言模型(VLM)监督微调(SFT)数据集,基于现有的“sat-bbox”风格数据集树(Sentinel‑2影像块 + 每图块的JSON元数据侧车文件,可选择配对的Mapbox静态图)构建。
其目标是生成高信号、面向生产环境的监督信号,用于多模态聊天模型,涵盖以下任务:
- 卫星影像块描述
- 土地覆盖区域的边界框定位(归一化坐标)
- 特定土地覆盖类别的聚焦描述与缺失检查
- 跨视角推理(利用可选的Mapbox俯视上下文)
- 生产式分析摘要,包含:
- Sentinel‑2影像
- 额外的程序化“分析图像”(类似TiM的预测类别栅格)
- 紧凑的TiM风格分析JSON块
- 特定场景的助手摘要(土地利用变化、野火、洪水脉冲等)
该数据集不调用Mapbox API,仅使用输入数据集根目录中已存在的路径。
“程序化”含义
数据集通过确定性、基于规则/合成的方法构建:
- 将元数据侧车文件转换为多种监督任务
- 生成TiM风格的分析JSON结构
- 为每一行生成额外的分析PNG图像(用于分析任务)
这些行旨在用于指令微调和格式/行为对齐,而非作为地面实况的科学测量。
土地覆盖类别
遵循Google Dynamic World v1类别ID(0–8):
| ID | 标签 |
|---|---|
| 0 | 水 |
| 1 | 树木 |
| 2 | 草地 |
| 3 | 洪水植被 |
| 4 | 农作物 |
| 5 | 灌木与灌丛 |
| 6 | 建筑 |
| 7 | 裸地 |
| 8 | 雪与冰 |
数据格式(data/*.jsonl 内容)
每行为一个JSON对象,包含 messages 列表,采用兼容常见VLM SFT管道的聊天格式。每个对话包含:
system(可选,用于生产分析行)user:一个或多个{"type":"image","image":"<相对路径>"}部分,后接一个{"type":"text","text":"..."}部分assistant:{"type":"text","text":"..."}
部分行还包含顶层 metadata 对象,例如生产分析行包括:
metadata.sample_idmetadata.taskmetadata.analysis_profilemetadata.tile_stemmetadata.splitmetadata.image_pathsmetadata.analysis_image_path
生成的任务类型
根据构建配置,生成以下任务类型:
production_analysis:- 2–3张图像(Sentinel‑2 + 可选的Mapbox + 生成的分析图像)
- 用户提示包含紧凑的TiM风格JSON块
- 助手输出为应用特定的分析摘要
caption:- 1张Sentinel‑2图像
- 助手描述源自侧车文件
grounding_all:- 1张Sentinel‑2图像
- 助手输出为JSON边界框列表:
[{"label": str, "bbox":[x1,y1,x2,y2]}, ...],坐标归一化到0–1
grounding_per_class:- 与
grounding_all相同,但按主导类别标签进行
- 与
class_focus:- 1张Sentinel‑2图像
- 助手仅描述特定类别的近似比例/布局
absence:- 1张Sentinel‑2图像
- 助手保守地回答某类别是否实质性存在
cross_view(可选,仅当存在Mapbox静态图路径时):- 2张图像:Mapbox静态图 + Sentinel‑2影像块
- 助手关联俯视上下文与卫星/标签信息
仓库目录结构
一个典型的导出数据集根目录包含:
data/:训练/验证/测试JSONL文件train.jsonlvalidation.jsonltest.jsonl
images/...:卫星影像块(从源树复制或硬链接)mapbox_stills/...(可选):仅当源数据集中存在并启用构建配置时包含analysis_images/...:生成的程序化PNG,用于production_analysis行metadata/:sft_metadata_rows/:每个SFT行的侧车文件,包含构建来源和规格*.json
metadata/sft_metadata_rows/*.json(行侧车文件)
每个JSONL行的侧车文件包含用于构建该行的字段,不同任务字段可能不同,常见字段包括:
sample_idtasktile_stemsplitimage_paths
对于 production_analysis,侧车文件还包括:
analysis_profileanalysis_image_pathanalysis_image_spec(用于渲染PNG的可序列化规格)sentinel_sidecar(从原始每图块元数据中提取的清理观测数据)
数据集创建方式
从输入数据集根目录构建,该根目录包含:
data/*.jsonl:包含稳定的相对图像路径(如images/.../<tile_stem>.png,可选mapbox_stills/.../<poi_id>.png)metadata/**/*.json:每图块侧车文件,至少包含:tile_stempoi_id(首选)和/或splitcaption(用于描述任务)class_fractions(用于分析及衍生任务)regions(用于定位任务,像素坐标对应模型输出分辨率)
构建器遍历 metadata/**/*.json,通过 tile_stem 关联到 data/*.jsonl,然后根据配置为每个图块生成多个SFT任务。
预期用途
- 多模态聊天模型的指令微调 / SFT
- 学习以下内容的稳定格式:
- 描述
- 定位JSON输出
- 特定场景的“分析师”摘要
不适用于:
- 精确的地球空间测量
- 科学变化检测验证
- 法律或运营层面的海事检测声明
已知限制与注意事项
- 许多目标是程序化的(合成的TiM风格信号和模板化摘要)
- 定位框源自元数据侧车文件(非本构建器中的人工标注)
- 跨视角推理依赖输入数据集中是否存在
mapbox_stills/路径 - 提示已过滤,以防止意外训练包含内部大型数据块(某些子串被禁止)
引用
如使用本数据集,请引用数据集仓库及其所衍生的上游来源(您的内部sat-bbox数据集树及任何影像提供商)。




