DetectiumFire

Name: DetectiumFire
Creator: 图卢拉大学计算机科学系
Published: 2025-11-04 19:33:11
License: 暂无描述

arXiv2025-11-04 更新2025-11-06 收录

下载链接：

https://kaggle.com/datasets/38b79c344bdfc55d1eed3d22fbaa9c31fad45e27edbbe9e3c529d6e5c4f9389

下载链接

链接失效反馈

官方服务：

资源简介：

DetectiumFire是一个大规模的多模态数据集，包含了22.5k张高分辨率的火灾相关图像和2.5k个真实世界的火灾相关视频，覆盖了广泛的火灾类型、环境和风险水平。数据集标注了传统的计算机视觉标签（如边界框）和详细的文本提示，描述了场景，支持合成数据生成和火灾风险推理等应用。DetectiumFire在规模、多样性和数据质量方面具有明显优势，显著减少了冗余，并增强了现实场景的覆盖范围。数据集适用于物体检测、基于扩散的图像生成和视觉语言推理等多个任务，有助于推动火灾相关研究和智能安全系统的开发。

DetectiumFire is a large-scale multimodal dataset comprising 22.5k high-resolution fire-related images and 2.5k real-world fire-related videos, covering a wide range of fire types, environments, and risk levels. The dataset is annotated with traditional computer vision labels (e.g., bounding boxes) and detailed textual prompts that describe the scene, supporting applications such as synthetic data generation and fire risk reasoning. DetectiumFire boasts distinct advantages in scale, diversity, and data quality, significantly reducing redundancy and enhancing coverage of real-world scenarios. It supports a variety of tasks including object detection, diffusion-based image generation, and vision-language reasoning, and facilitates the advancement of fire-related research and the development of intelligent safety systems.

提供机构：

图卢拉大学计算机科学系

创建时间：

2025-11-04

搜集汇总

数据集介绍

构建方式

在火灾安全研究领域，数据稀缺与多样性不足长期制约着多模态模型的发展。DetectiumFire通过系统化流程构建了大规模真实与合成数据：首先从网络平台采集22.5千张高分辨率图像与2.5千段视频，经过去重过滤后由消防领域专家进行边界框标注；同时利用监督微调与人类反馈强化学习技术，基于真实数据生成8千张合成图像，并通过定制化标注工具对GPT-4o生成的文本描述进行人工校验，形成包含燃烧对象、环境场景与风险等级的标准化标注体系。

特点

该数据集显著区别于现有基准的突出特点体现在三维度创新：其空间覆盖涵盖室内外14类火灾场景，既包含烛光等低风险场景也覆盖森林火灾等高危场景；其模态完整性同时提供视觉数据与自然语言描述，支持从目标检测到视觉推理的全链条任务；其质量优势通过0.23的重复率验证了数据独特性，且专门设计的负样本集包含易误判的类火场景，有效提升模型鲁棒性。

使用方法

研究者可基于该数据集开展三类典型应用：在传统视觉任务中，利用边界框标注训练目标检测模型实现火灾定位；在生成任务中，结合文本描述微调扩散模型生成符合语义的合成火灾图像；在高级推理任务中，通过图文对数据训练视觉语言模型，实现燃烧对象识别、环境分类与风险等级判断的端到端推理。所有数据均提供标准化划分与评估指标，确保实验可复现性。

背景与挑战

背景概述

火灾安全作为全球性关键议题，在计算机视觉与多模态人工智能融合发展的背景下，DetectiumFire数据集于2025年由杜兰大学与阿尔托大学联合团队正式发布。该研究旨在突破传统火灾检测数据集的局限，通过整合2.25万张高分辨率图像与2500段真实场景视频，构建首个涵盖室内外多风险等级的大规模多模态火灾理解基准。其创新性体现在将传统视觉标注与细粒度文本描述相结合，为生成式模型与视觉语言推理提供了结构化数据支撑，显著推动了智能安防系统在火灾动态感知与风险研判领域的发展。

当前挑战

在领域问题层面，现有火灾检测系统难以区分可控火源与高危火情，导致误报率居高不下，且缺乏对燃烧对象、环境语境与风险等级的联合推理能力。构建过程中，火灾事件的罕见性与危险性导致原始数据采集困难，视频帧提取引发的冗余样本占比达23%，需通过专业标注团队历时数月完成跨模态对齐。此外，合成数据生成需平衡视觉逼真度与语义一致性，在强化学习人类反馈阶段需构建1.2万组偏好对以优化生成质量。

常用场景

经典使用场景

在火灾安全与计算机视觉交叉领域，DetectiumFire数据集为多模态模型训练提供了标准化基准。该数据集通过整合22.5千张高分辨率火灾图像与2.5千段真实场景视频，构建了覆盖室内外多风险等级的火灾场景谱系。其经典应用体现在支持目标检测模型的跨场景泛化验证，例如通过YOLOv11等架构在厨房火灾、森林野火等差异化场景中实现火焰区域的精准定位，显著提升了传统火灾检测系统在复杂环境下的鲁棒性。

解决学术问题

该数据集有效解决了火灾研究领域长期存在的三大核心问题：首先突破了数据稀缺性瓶颈，通过合成数据生成技术将样本量扩展至传统数据集的四倍以上；其次弥合了模态割裂缺陷，首次实现视觉标注与文本描述的协同标注体系；最终攻克了场景多样性不足的难题，涵盖从烛光到森林火灾的17类细分场景。这些突破使得视觉语言模型在火灾属性推理任务中的准确率提升超过25个百分点，为安全关键领域的可信AI研究奠定了数据基石。

衍生相关工作

基于该数据集衍生的研究呈现出明显的技术演进脉络。在生成模型方向，扩散模型与强化学习的结合催生了FLAME Diffuser等可控火焰生成框架；推理模型领域则涌现出专用于火灾风险评估的视觉语言模型变体，在HAZARD基准测试中展现出超越通用模型的场景理解深度；更值得关注的是开放词汇检测器YOLO-World与数据集的结合，开创了零样本火灾检测新范式，为未知燃烧物组合的识别提供了可行路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集