DetectiumFire

github2025-10-25 更新2025-11-12 收录

下载链接：

https://github.com/ZixuanLiu4869/DetectiumFire

下载链接

链接失效反馈

官方服务：

资源简介：

DetectiumFire是一个大规模多模态数据集，旨在推进传统计算机视觉和现代视觉语言任务中的火灾理解。它提供高质量的真实和合成火灾数据、详细注释以及人类偏好反馈，用于训练和评估对象检测器、扩散模型和视觉语言模型。

DetectiumFire is a large-scale multimodal dataset aimed at advancing fire understanding across traditional computer vision and modern visual-language tasks. It provides high-quality real and synthetic fire data, detailed annotations, and human preference feedback for training and evaluating object detectors, diffusion models, and visual-language models.

创建时间：

2025-10-22

原始信息汇总

DetectiumFire 数据集概述

数据集简介

DetectiumFire 是一个大规模多模态数据集，旨在推进传统计算机视觉和现代视觉语言任务中的火灾理解。该数据集提供高质量的真实和合成火灾数据、详细标注以及人类偏好反馈，用于训练和评估目标检测器、扩散模型和视觉语言模型。

数据访问

数据集下载地址：https://www.kaggle.com/datasets/38b79c344bdfc55d1eed3d22fbaa9c31fad45e27edbbe9e3c529d6e5c4f93890
关联模型地址：https://www.kaggle.com/models/yimengfuyao/detectiumfire-models
论文地址：https://openreview.net/forum?id=vhHYTjMt9Z
项目主页：https://detectium.io

数据集结构

图像数据

图像标注生成代码：image_caption_gemini.py
火灾提示词文件：fire_prompts.json

元数据字段说明

image：火灾图像文件名，位于 real_fire/images/ 目录
source：图像来源，包括 web_search、iot_device_detectium、FIRE、Forest Fire 和 FireNET
fire_prompt：经过最终编辑和人工验证的火灾提示词，用于文生图生成和扩散模型微调
fire_type：详细的火灾类型分类标签，遵循层次分类体系

视频数据

视频标注生成代码：caption_video_gemini.py
视频切割代码：cut_to_10s.py（将原始视频切割为10秒片段）
数据集划分代码：generate_train_val_test_split.py（生成训练/验证/测试集）

模型训练支持

TimeSformer 训练

官方实现：https://github.com/facebookresearch/TimeSformer
训练命令包含配置文件和参数设置
常见问题解决方案：处理导入错误

VideoMamba 训练

官方实现：https://github.com/OpenGVLab/VideoMamba
训练脚本配置说明
常见问题解决方案：处理参数错误

未来发展

计划迭代更新数据集并推出 DetectiumFire-Plus 版本，包含更多近期火灾相关图像。

引用信息

Liu, Z., Khajavi, S. H., & Jiang, G. (2025).
DetectiumFire: A Comprehensive Multi-modal Dataset Bridging Vision and Language for Fire Understanding.
NeurIPS Datasets and Benchmarks Track, 2025.

bibtex @inproceedings{liu2025detectiumfire, title = {DetectiumFire: A Comprehensive Multi-modal Dataset Bridging Vision and Language for Fire Understanding}, author = {Zixuan Liu and Siavash H. Khajavi and Guangkai Jiang}, booktitle = {The Thirty-ninth Annual Conference on Neural Information Processing Systems Datasets and Benchmarks Track}, year = {2025}, url = {https://openreview.net/forum?id=vhHYTjMt9Z} }

搜集汇总

数据集介绍

构建方式

DetectiumFire数据集采用多源数据融合策略，整合了物联网设备采集、网络搜索及现有火灾数据库的视觉资料。通过大语言模型生成图像描述，并结合人工验证流程，确保标注质量与语义准确性。视频数据经过时序切割处理，生成标准化的十秒片段以适配时序模型训练需求，同时构建了涵盖火灾类型、严重程度等多维度的分层标注体系。

使用方法

研究者可通过Kaggle平台获取数据文件与预训练模型，利用配套脚本实现图像描述生成与视频片段切割。训练阶段需根据模型架构调整配置文件路径，如TimeSformer需配置CSV数据索引文件路径，VideoMamba则需修改运行脚本中的硬件参数。数据加载模块支持直接调用处理后的标注文件，实现端到端的模型训练与验证流程。

背景与挑战

背景概述

火灾理解作为计算机视觉与自然语言处理交叉领域的重要研究方向，近年来因多模态学习技术的突破而备受关注。DetectiumFire数据集由Zixuan Liu等研究者于2025年构建，旨在通过融合真实与合成火灾数据，为火灾检测、扩散模型训练及视觉语言任务提供标准化基准。该数据集通过Detectium机构发布，其多模态特性显著推动了火灾场景理解的技术边界，为智慧城市安防与灾害预警系统提供了关键数据支撑。

当前挑战

火灾视觉识别领域长期面临样本稀缺性与场景多样性的双重挑战，具体表现为真实火灾图像采集难度高、火势形态动态变化复杂。在数据集构建过程中，团队需克服多源数据标准化整合的困难，包括物联网设备与网络图像的异构数据处理，以及通过人工验证确保文本描述与视觉内容的精确对齐。此外，视频片段时序标注与多模态一致性维护亦构成关键技术瓶颈。

常用场景

经典使用场景

在火灾安全与计算机视觉交叉领域，DetectiumFire数据集为多模态任务提供了关键支持。其经典应用场景涵盖火灾检测模型的训练与评估，通过整合真实与合成火灾图像及视频数据，支持对象检测、扩散模型和视觉语言模型的开发。该数据集的高质量标注和人类偏好反馈机制，使研究人员能够构建更精准的火灾识别系统，尤其在复杂环境下的火焰分类和定位任务中表现卓越。

解决学术问题

DetectiumFire数据集致力于解决火灾理解中的多模态融合挑战，填补了传统视觉任务与语言描述之间的鸿沟。它通过提供细粒度注释和分层分类标签，支持火灾类型识别、严重性评估及跨模态对齐等核心学术问题。该资源显著提升了模型在真实场景中的泛化能力，为火灾动力学研究和智能预警系统的理论突破奠定了数据基础。

实际应用

该数据集的实际价值体现在智慧城市与工业安全领域，其多模态特性赋能了实时火灾监测系统的开发。基于物联网设备与网络采集的数据，可训练出适应室内外环境的火灾检测算法，应用于森林防火、建筑安全监控等场景。通过集成视觉语言模型，系统能自动生成火灾描述，辅助应急响应决策，提升公共安全管理的智能化水平。

数据集最近研究