five

NuTonic/sat-bbox-metadata-sft-v1

收藏
Hugging Face2026-04-28 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/NuTonic/sat-bbox-metadata-sft-v1
下载链接
链接失效反馈
官方服务:
资源简介:
`NuTonic/sat-bbox-metadata-sft-v1` 是一个**以元数据为先、程序化的VLM SFT数据集**,基于现有的“sat-bbox”风格数据集构建(包括Sentinel-2图像块和每块的JSON元数据文件,可选配Mapbox静态图像)。其目标是为多模态聊天模型提供**高信号、生产形态的监督**,包括:卫星图像块的**标注**、土地覆盖区域的**定位**(归一化坐标中的边界框)、特定土地覆盖类的**类聚焦标注**和**缺失检查**、使用可选Mapbox overhead上下文的**跨视图推理**,以及包含Sentinel-2图像、额外的程序化“分析图像”(类似TiM的预测类栅格)、紧凑的**TiM形态分析JSON块**和特定配置的助手摘要(如土地利用变化、野火、洪水脉冲等)的**类生产分析摘要**。该数据集**无需调用Mapbox API**,仅使用输入数据集根目录中已有的路径生成。

pretty_name: sat-bbox-metadata-sft language: - en license: other task_categories: - text-generation - image-text-to-text tags: - satellite - remote-sensing - vision-language - instruction-tuning - grounding - bounding-boxes - dynamic-world configs: - config_name: default data_files: - split: train path: data/train.jsonl - split: validation path: data/validation.jsonl - split: test path: data/test.jsonl size_categories: - 100K<n<1M --- ## 数据集概述 `NuTonic/sat-bbox-metadata-sft-v1` 是一款**以元数据为核心的流程化视觉语言模型(VLM)监督微调(SFT,Supervised Fine-Tuning)数据集**,源自现有的“sat-bbox”风格数据集体系(包含哨兵二号(Sentinel-2)影像切片及每幅影像对应的JSON元数据附属文件,可搭配可选的Mapbox静态影像使用)。 本数据集的目标是为多模态对话模型打造**高信噪比、贴合生产场景的监督信号**,涵盖以下任务: - 卫星影像切片的**图像描述** - 地表覆盖区域的**接地任务(归一化坐标下的边界框)** - 针对特定地表覆盖类别的**聚焦类描述**与**存在性校验** - 结合可选Mapbox俯视视角上下文的**跨视图推理** - 贴合生产场景的**分析型摘要**,包含: - 哨兵二号(Sentinel-2)影像 - 额外的流程化“分析影像”(类似TiM的预测类别栅格) - 紧凑的**TiM格式分析JSON块** - 针对特定场景的助手摘要(如土地利用变化、野火、洪水脉冲等) 本数据集的生成**无需调用Mapbox API**,仅使用输入数据集根目录中已存在的文件路径。 ## “流程化”的定义 这里的“流程化”指本数据集采用**确定性、基于规则的合成式构建方式**,以实现: - 将元数据附属文件转换为多种监督任务 - 生成TiM格式的分析JSON结构 - 为每条样本生成额外的分析PNG影像(用于分析类任务) 本数据集的样本设计用于**指令微调**与**格式与行为对齐**,而非作为科学实测的真值数据。 ## 地表覆盖类别 地表覆盖语义遵循**谷歌动态世界v1(Google Dynamic World v1)**的类别ID(0–8): | 编号 | 类别标签 | |---:|---| | 0 | 水体 | | 1 | 林木 | | 2 | 草本植被 | | 3 | 淹水植被 | | 4 | 农作物 | | 5 | 灌丛 | | 6 | 建筑用地 | | 7 | 裸地 | | 8 | 冰雪 | ## 数据格式(`data/*.jsonl`文件内容) 每条样本为JSON对象,包含与主流视觉语言模型微调(SFT)流水线兼容的聊天格式`messages`列表。 每条样本对应一段对话,结构如下: - `system`(可选;用于生产分析类样本) - `user`:包含一个或多个`{"type":"image","image":"<相对路径>"}`图像字段,后跟一个`{"type":"text","text":"..."}`文本字段 - `assistant`:`{"type":"text","text":"..."}`文本字段 部分样本的顶层还包含`metadata`对象(注意与数据集的`metadata/`文件夹相区分)。例如,生产分析类样本包含以下字段: - `metadata.sample_id` - `metadata.task` - `metadata.analysis_profile` - `metadata.tile_stem` - `metadata.split` - `metadata.image_paths` - `metadata.analysis_image_path` ### 支持的任务类型 根据构建配置,生成器可输出以下任务类型: - `production_analysis`(生产分析任务): - 2–3幅影像(哨兵二号影像+可选Mapbox影像+生成的分析影像) - 用户提示包含紧凑的TiM格式JSON块 - 助手输出为面向特定应用场景的分析摘要 - `caption`(图像描述任务): - 1幅哨兵二号影像 - 助手输出的描述源自元数据附属文件 - `grounding_all`(全类别接地任务): - 1幅哨兵二号影像 - 助手输出为边界框JSON列表:`[{"label": str, "bbox":[x1,y1,x2,y2]}, ...]`,坐标归一化至0–1区间 - `grounding_per_class`(单类别接地任务): - 与全类别接地任务一致,但仅针对占主导的类别标签 - `class_focus`(聚焦类别任务): - 1幅哨兵二号影像 - 助手仅描述特定类别的大致占比与分布 - `absence`(存在性校验任务): - 1幅哨兵二号影像 - 助手以保守方式回答某类别是否实质性存在 - `cross_view`(跨视图推理任务,可选;仅当存在Mapbox静态影像路径时可用): - 2幅影像:Mapbox静态影像+哨兵二号影像切片 - 助手将俯视视角上下文与卫星影像及标签关联起来 ## 仓库文件结构(Hub托管平台上的文件) 典型的导出数据集根目录包含以下内容: - `data/` - `train.jsonl` - `validation.jsonl` - `test.jsonl` - `images/...` 卫星影像切片(从源数据集树复制或硬链接而来) - `mapbox_stills/...`(可选) 仅当源数据集包含该目录且构建配置启用时才会包含 - `analysis_images/...` **生成的**流程化PNG影像,供`production_analysis`任务使用 - `metadata/` - `sft_metadata_rows/` - `*.json`:为每条生成的SFT样本提供附属元数据文件(包含构建溯源信息与所用参数) ### `metadata/sft_metadata_rows/*.json`(样本附属元数据) 针对每条JSONL样本,在`metadata/sft_metadata_rows/`目录下会生成对应的附属元数据文件,包含构建该样本所用的字段。字段内容因任务类型而异,通常包含: - `sample_id` - `task` - `tile_stem` - `split` - `image_paths` 对于`production_analysis`任务,附属元数据还包含: - `analysis_profile` - `analysis_image_path` - `analysis_image_spec`(用于渲染PNG的可序列化参数) - `sentinel_sidecar`(从原始每幅影像元数据中提取的清洗后观测数据) ## 数据集构建方式 本数据集源自**输入数据集根目录**,该目录包含: - `data/*.jsonl`,其中包含稳定的相对影像路径,例如: - `images/.../<tile_stem>.png` - 可选的`mapbox_stills/.../<poi_id>.png` - `metadata/**/*.json`:每幅影像对应的元数据附属文件,至少包含以下字段: - `tile_stem` - `poi_id`(优先选用)和/或`split` - `caption`(用于图像描述任务) - `class_fractions`(用于分析任务与部分衍生任务) - `regions`(用于接地任务;为模型输出分辨率下的像素坐标) 构建器会遍历`metadata/**/*.json`文件,通过`tile_stem`与`data/*.jsonl`进行关联,随后根据配置为每幅影像生成多条SFT任务样本。 ## 预期用途 - 用于支持可接收交错图像与文本消息的多模态对话模型的**指令微调**与监督微调(SFT) - 学习稳定的格式规范,用于: - 图像描述 - 边界框接地任务的JSON输出 - 面向特定场景的“分析师”风格摘要 不适用场景: - 高精度地理空间测量 - 科学变化检测验证 - 法律或商用海事检测声明 ## 已知局限性与注意事项 - 多数目标为**流程化合成**(合成的TiM格式信号与模板化摘要) - 接地边界框源自元数据附属文件(本构建器未使用人工标注数据) - 跨视图推理能力取决于输入数据集是否包含`mapbox_stills/`路径 - 提示词已经过过滤,以避免意外训练包含大型内部文本块的样本(部分子字符串被禁用) ## 许可证 本仓库未为源数据集树中所有上游影像与元数据定义统一许可证。请确保您拥有用于构建本数据集的底层源内容的再分发权限。 ## 引用说明 若您使用本数据集,请引用本数据集仓库及其衍生的上游源数据(您内部的sat-bbox数据集树及所有影像提供商)。
提供机构:
NuTonic
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作