NuTonic/firewatch-sft-v1
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/NuTonic/firewatch-sft-v1
下载链接
链接失效反馈官方服务:
资源简介:
FireWatch SFT数据集是一个包含与野火相关的Sentinel-2卫星图像对(火灾前后的时间序列图像)的数据集。通过dNBR(差异归一化燃烧指数)生成变化掩膜,并为每个图像块生成变化描述文本行和(存在区域时的)带有归一化边界框的接地行。数据集分为训练集(187条)、验证集(空)和测试集(48条)。数据集布局包括JSONL文件、PNG图像块和元数据JSON文件。数据集的生成和处理依赖于特定的CLI命令和环境变量设置。
FireWatch SFT is a dataset containing temporal Sentinel-2 image pairs (pre/post around a wildfire-relevant event date) over a fixed AOI. The dataset uses dNBR-style burn signal to drive a change mask and emits a change caption row for each tile, along with a grounding row with normalized bounding boxes when regions exist. The dataset is split into train (187 entries), validation (empty), and test (48 entries) sets. The dataset layout includes JSONL files, PNG image chips, and metadata JSON files. The generation and processing of the dataset rely on specific CLI commands and environment variables.
提供机构:
NuTonic
搜集汇总
数据集介绍

构建方式
FireWatch SFT数据集专为遥感领域中的野火监测与视觉语言模型微调而设计。其构建基于Sentinel-2卫星影像的时间序列对,每个样本围绕指定的野火事件日期,选取灾前与灾后影像,并利用dNBR指数驱动的燃烧信号生成变化掩膜。数据集中每条记录均包含变化描述文本,当检测到燃烧区域时,还会附加带有归一化边界框的定位信息。数据集来源于Element84 Earth Search的STAC目录,无需外部API密钥即可获取影像。通过稳定哈希事件标识符,将数据分配至训练集与测试集,确保同一事件始终落入同一数据划分。
特点
该数据集以视觉语言模型监督微调为核心应用场景,兼具描述性与定位性任务。其独特之处在于将时间序列遥感影像对与变化检测信号深度融合,每个样本包含灾前与灾后两幅PNG图像,并辅以系统提示词、用户询问和助手回答构成的对话格式。数据集的构建采用启发式而非人工标注,虽存在光学影像受云层覆盖及重访周期限制的局限,但其输出文本遵循保守措辞,符合科研辅助工具的严谨要求。总计235条记录,其中训练集187条、测试集48条,覆盖161个独立影像块。
使用方法
使用者可通过运行`build_lfm_vl_firewatch_sft.py`脚本,传入事件文件路径及各类参数(如影像跨度、云量容忍度、时间窗口等)来本地重建数据集。生成的JSONL文件内包含图像相对路径,可直接用于加载对话样本及对应影像。若需上传至Hugging Face Hub,需配置`HF_TOKEN`环境变量并指定`--upload-repo`参数。对于批量生成多个数据配置文件的场景,可使用`run_pro_sft_orchestrator.py`进行编排,支持按组织名称自动上传至对应仓库。
背景与挑战
背景概述
森林火灾作为全球性的自然灾害,对生态环境与人类社会造成巨大威胁。近年来,遥感卫星技术凭借广覆盖、多时相的优势,成为火灾监测与评估的核心手段。FireWatch SFT数据集的创建,正是为了填补多模态视觉语言模型(VLM)在遥感火灾变化检测与描述领域的训练数据空白。该数据集由NuTonic研究团队构建,发布于2024年,基于哨兵二号卫星影像,聚焦火灾前后的时序变化。其核心研究问题在于如何利用时序遥感图像对,生成细粒度的火灾变化描述与空间定位信息,从而提升VLM对火灾场景的理解与推理能力。该数据集以任务导向的格式(SFT)设计,为遥感领域的多模态大模型训练提供了高质量、专用化的基准资源,在防灾减灾与智能遥感交叉研究中具有重要影响力。
当前挑战
FireWatch SFT面临的挑战主要集中在两个方面。首先,在领域问题层面,遥感火灾变化检测需处理高度复杂的场景:光学影像受云层遮挡严重,哨兵二号16天的重访周期可能导致关键火情信息遗漏,而火灾本身具有快速蔓延、边界不清晰等特性,使基于光谱指数的变化掩膜(如dNBR)易产生漏检或误判。其次,在数据集构建过程中,挑战尤为突出:事件筛选依赖启发式规则(阈值与索引),缺乏真实地面验证标签,导致标注质量受限;多时相影像的配准与云覆盖筛选需严格质控,但仅161个图块的规模与235条记录限制了模型的泛化能力;此外,变化描述文本采用保守措辞(如“candidate”“confidence qualifier”),可能弱化模型对火灾严重程度的判别能力。
常用场景
经典使用场景
FireWatch SFT数据集聚焦于遥感领域的 wildfire 事件,通过 Sentinel-2 时序影像对(灾前/灾后)捕捉燃烧信号的动态变化。其经典使用场景在于为视觉语言模型(VLM)提供高质量的监督微调(SFT)数据,涵盖变化描述生成与目标定位两大任务。每对影像均附带 dNBR 风格的变化掩码,并自动生成描述性文本及归一化边界框,使模型能理解并输出与 wildfire 相关的地理空间变化信息。此外,数据集采用事件分片策略,确保同一事件在不同拆分中保持一致性,适用于时序变化检测、遥感图像描述与 grounding 等经典研究范式。
衍生相关工作
FireWatch SFT 数据集的发布激发了多项衍生研究工作。在模型架构层面,研究者基于其提供的 paired 影像与文本描述,探索了多尺度特征融合的遥感变化描述生成器,改进 dNBR 掩码与语言解码器的交互方式。在数据增强方向,该数据集启发了利用合成事件(如火灾模拟)扩展时序对样本的范式,提升了模型在罕见燃烧模式下的鲁棒性。此外,在评测基准方面,FireWatch 被纳入 wildfire 视觉语言理解排行榜,催生了更全面的评估指标(如描述准确率与定位交并比的联合评分)。这些工作共同推动了遥感领域从纯粹的像素级分析向语义级理解与自动化灾情报告的演进。
数据集最近研究
最新研究方向
基于时序Sentinel-2影像对的森林野火变化检测与视觉语言模型微调数据集的构建,聚焦于结合dNBR指数生成变化掩膜与自然语言描述,并通过规范化边界框实现区域级定位。该数据集以火情事件为驱动,支持少样本条件下的大规模遥感变化描述生成与视觉定位联合训练,推动地理空间智能从像素级分类向语义级理解的演进,为野火灾后快速评估、生态扰动监测以及多模态遥感基础模型的发展提供关键训练资源。
以上内容由遇见数据集搜集并总结生成



