NuTonic/sat-bbox-metadata-sft-v1
收藏Hugging Face2026-04-28 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/NuTonic/sat-bbox-metadata-sft-v1
下载链接
链接失效反馈官方服务:
资源简介:
`NuTonic/sat-bbox-metadata-sft-v1` 是一个**以元数据为先、程序化的VLM SFT数据集**,基于现有的“sat-bbox”风格数据集构建(包括Sentinel-2图像块和每块的JSON元数据文件,可选配Mapbox静态图像)。其目标是为多模态聊天模型提供**高信号、生产形态的监督**,包括:卫星图像块的**标注**、土地覆盖区域的**定位**(归一化坐标中的边界框)、特定土地覆盖类的**类聚焦标注**和**缺失检查**、使用可选Mapbox overhead上下文的**跨视图推理**,以及包含Sentinel-2图像、额外的程序化“分析图像”(类似TiM的预测类栅格)、紧凑的**TiM形态分析JSON块**和特定配置的助手摘要(如土地利用变化、野火、洪水脉冲等)的**类生产分析摘要**。该数据集**无需调用Mapbox API**,仅使用输入数据集根目录中已有的路径生成。
pretty_name: sat-bbox-metadata-sft
language:
- en
license: other
task_categories:
- text-generation
- image-text-to-text
tags:
- satellite
- remote-sensing
- vision-language
- instruction-tuning
- grounding
- bounding-boxes
- dynamic-world
configs:
- config_name: default
data_files:
- split: train
path: data/train.jsonl
- split: validation
path: data/validation.jsonl
- split: test
path: data/test.jsonl
size_categories:
- 100K<n<1M
---
## 数据集概述
`NuTonic/sat-bbox-metadata-sft-v1` 是一款**以元数据为核心的流程化视觉语言模型(VLM)监督微调(SFT,Supervised Fine-Tuning)数据集**,源自现有的“sat-bbox”风格数据集体系(包含哨兵二号(Sentinel-2)影像切片及每幅影像对应的JSON元数据附属文件,可搭配可选的Mapbox静态影像使用)。
本数据集的目标是为多模态对话模型打造**高信噪比、贴合生产场景的监督信号**,涵盖以下任务:
- 卫星影像切片的**图像描述**
- 地表覆盖区域的**接地任务(归一化坐标下的边界框)**
- 针对特定地表覆盖类别的**聚焦类描述**与**存在性校验**
- 结合可选Mapbox俯视视角上下文的**跨视图推理**
- 贴合生产场景的**分析型摘要**,包含:
- 哨兵二号(Sentinel-2)影像
- 额外的流程化“分析影像”(类似TiM的预测类别栅格)
- 紧凑的**TiM格式分析JSON块**
- 针对特定场景的助手摘要(如土地利用变化、野火、洪水脉冲等)
本数据集的生成**无需调用Mapbox API**,仅使用输入数据集根目录中已存在的文件路径。
## “流程化”的定义
这里的“流程化”指本数据集采用**确定性、基于规则的合成式构建方式**,以实现:
- 将元数据附属文件转换为多种监督任务
- 生成TiM格式的分析JSON结构
- 为每条样本生成额外的分析PNG影像(用于分析类任务)
本数据集的样本设计用于**指令微调**与**格式与行为对齐**,而非作为科学实测的真值数据。
## 地表覆盖类别
地表覆盖语义遵循**谷歌动态世界v1(Google Dynamic World v1)**的类别ID(0–8):
| 编号 | 类别标签 |
|---:|---|
| 0 | 水体 |
| 1 | 林木 |
| 2 | 草本植被 |
| 3 | 淹水植被 |
| 4 | 农作物 |
| 5 | 灌丛 |
| 6 | 建筑用地 |
| 7 | 裸地 |
| 8 | 冰雪 |
## 数据格式(`data/*.jsonl`文件内容)
每条样本为JSON对象,包含与主流视觉语言模型微调(SFT)流水线兼容的聊天格式`messages`列表。
每条样本对应一段对话,结构如下:
- `system`(可选;用于生产分析类样本)
- `user`:包含一个或多个`{"type":"image","image":"<相对路径>"}`图像字段,后跟一个`{"type":"text","text":"..."}`文本字段
- `assistant`:`{"type":"text","text":"..."}`文本字段
部分样本的顶层还包含`metadata`对象(注意与数据集的`metadata/`文件夹相区分)。例如,生产分析类样本包含以下字段:
- `metadata.sample_id`
- `metadata.task`
- `metadata.analysis_profile`
- `metadata.tile_stem`
- `metadata.split`
- `metadata.image_paths`
- `metadata.analysis_image_path`
### 支持的任务类型
根据构建配置,生成器可输出以下任务类型:
- `production_analysis`(生产分析任务):
- 2–3幅影像(哨兵二号影像+可选Mapbox影像+生成的分析影像)
- 用户提示包含紧凑的TiM格式JSON块
- 助手输出为面向特定应用场景的分析摘要
- `caption`(图像描述任务):
- 1幅哨兵二号影像
- 助手输出的描述源自元数据附属文件
- `grounding_all`(全类别接地任务):
- 1幅哨兵二号影像
- 助手输出为边界框JSON列表:`[{"label": str, "bbox":[x1,y1,x2,y2]}, ...]`,坐标归一化至0–1区间
- `grounding_per_class`(单类别接地任务):
- 与全类别接地任务一致,但仅针对占主导的类别标签
- `class_focus`(聚焦类别任务):
- 1幅哨兵二号影像
- 助手仅描述特定类别的大致占比与分布
- `absence`(存在性校验任务):
- 1幅哨兵二号影像
- 助手以保守方式回答某类别是否实质性存在
- `cross_view`(跨视图推理任务,可选;仅当存在Mapbox静态影像路径时可用):
- 2幅影像:Mapbox静态影像+哨兵二号影像切片
- 助手将俯视视角上下文与卫星影像及标签关联起来
## 仓库文件结构(Hub托管平台上的文件)
典型的导出数据集根目录包含以下内容:
- `data/`
- `train.jsonl`
- `validation.jsonl`
- `test.jsonl`
- `images/...`
卫星影像切片(从源数据集树复制或硬链接而来)
- `mapbox_stills/...`(可选)
仅当源数据集包含该目录且构建配置启用时才会包含
- `analysis_images/...`
**生成的**流程化PNG影像,供`production_analysis`任务使用
- `metadata/`
- `sft_metadata_rows/`
- `*.json`:为每条生成的SFT样本提供附属元数据文件(包含构建溯源信息与所用参数)
### `metadata/sft_metadata_rows/*.json`(样本附属元数据)
针对每条JSONL样本,在`metadata/sft_metadata_rows/`目录下会生成对应的附属元数据文件,包含构建该样本所用的字段。字段内容因任务类型而异,通常包含:
- `sample_id`
- `task`
- `tile_stem`
- `split`
- `image_paths`
对于`production_analysis`任务,附属元数据还包含:
- `analysis_profile`
- `analysis_image_path`
- `analysis_image_spec`(用于渲染PNG的可序列化参数)
- `sentinel_sidecar`(从原始每幅影像元数据中提取的清洗后观测数据)
## 数据集构建方式
本数据集源自**输入数据集根目录**,该目录包含:
- `data/*.jsonl`,其中包含稳定的相对影像路径,例如:
- `images/.../<tile_stem>.png`
- 可选的`mapbox_stills/.../<poi_id>.png`
- `metadata/**/*.json`:每幅影像对应的元数据附属文件,至少包含以下字段:
- `tile_stem`
- `poi_id`(优先选用)和/或`split`
- `caption`(用于图像描述任务)
- `class_fractions`(用于分析任务与部分衍生任务)
- `regions`(用于接地任务;为模型输出分辨率下的像素坐标)
构建器会遍历`metadata/**/*.json`文件,通过`tile_stem`与`data/*.jsonl`进行关联,随后根据配置为每幅影像生成多条SFT任务样本。
## 预期用途
- 用于支持可接收交错图像与文本消息的多模态对话模型的**指令微调**与监督微调(SFT)
- 学习稳定的格式规范,用于:
- 图像描述
- 边界框接地任务的JSON输出
- 面向特定场景的“分析师”风格摘要
不适用场景:
- 高精度地理空间测量
- 科学变化检测验证
- 法律或商用海事检测声明
## 已知局限性与注意事项
- 多数目标为**流程化合成**(合成的TiM格式信号与模板化摘要)
- 接地边界框源自元数据附属文件(本构建器未使用人工标注数据)
- 跨视图推理能力取决于输入数据集是否包含`mapbox_stills/`路径
- 提示词已经过过滤,以避免意外训练包含大型内部文本块的样本(部分子字符串被禁用)
## 许可证
本仓库未为源数据集树中所有上游影像与元数据定义统一许可证。请确保您拥有用于构建本数据集的底层源内容的再分发权限。
## 引用说明
若您使用本数据集,请引用本数据集仓库及其衍生的上游源数据(您内部的sat-bbox数据集树及所有影像提供商)。
提供机构:
NuTonic



