five

DetectiumFire

收藏
github2025-10-25 更新2025-11-12 收录
下载链接:
https://github.com/ZixuanLiu4869/DetectiumFire
下载链接
链接失效反馈
官方服务:
资源简介:
DetectiumFire是一个大规模多模态数据集,旨在推进传统计算机视觉和现代视觉语言任务中的火灾理解。它提供高质量的真实和合成火灾数据、详细注释以及人类偏好反馈,用于训练和评估对象检测器、扩散模型和视觉语言模型。

DetectiumFire is a large-scale multimodal dataset aimed at advancing fire understanding across traditional computer vision and modern visual-language tasks. It provides high-quality real and synthetic fire data, detailed annotations, and human preference feedback for training and evaluating object detectors, diffusion models, and visual-language models.
创建时间:
2025-10-22
原始信息汇总

DetectiumFire 数据集概述

数据集简介

DetectiumFire 是一个大规模多模态数据集,旨在推进传统计算机视觉和现代视觉语言任务中的火灾理解。该数据集提供高质量的真实和合成火灾数据、详细标注以及人类偏好反馈,用于训练和评估目标检测器、扩散模型和视觉语言模型。

数据访问

  • 数据集下载地址:https://www.kaggle.com/datasets/38b79c344bdfc55d1eed3d22fbaa9c31fad45e27edbbe9e3c529d6e5c4f93890
  • 关联模型地址:https://www.kaggle.com/models/yimengfuyao/detectiumfire-models
  • 论文地址:https://openreview.net/forum?id=vhHYTjMt9Z
  • 项目主页:https://detectium.io

数据集结构

图像数据

  • 图像标注生成代码:image_caption_gemini.py
  • 火灾提示词文件:fire_prompts.json

元数据字段说明

  • image:火灾图像文件名,位于 real_fire/images/ 目录
  • source:图像来源,包括 web_search、iot_device_detectium、FIRE、Forest Fire 和 FireNET
  • fire_prompt:经过最终编辑和人工验证的火灾提示词,用于文生图生成和扩散模型微调
  • fire_type:详细的火灾类型分类标签,遵循层次分类体系

视频数据

  • 视频标注生成代码:caption_video_gemini.py
  • 视频切割代码:cut_to_10s.py(将原始视频切割为10秒片段)
  • 数据集划分代码:generate_train_val_test_split.py(生成训练/验证/测试集)

模型训练支持

TimeSformer 训练

  • 官方实现:https://github.com/facebookresearch/TimeSformer
  • 训练命令包含配置文件和参数设置
  • 常见问题解决方案:处理导入错误

VideoMamba 训练

  • 官方实现:https://github.com/OpenGVLab/VideoMamba
  • 训练脚本配置说明
  • 常见问题解决方案:处理参数错误

未来发展

计划迭代更新数据集并推出 DetectiumFire-Plus 版本,包含更多近期火灾相关图像。

引用信息

Liu, Z., Khajavi, S. H., & Jiang, G. (2025).
DetectiumFire: A Comprehensive Multi-modal Dataset Bridging Vision and Language for Fire Understanding.
NeurIPS Datasets and Benchmarks Track, 2025.

bibtex @inproceedings{liu2025detectiumfire, title = {DetectiumFire: A Comprehensive Multi-modal Dataset Bridging Vision and Language for Fire Understanding}, author = {Zixuan Liu and Siavash H. Khajavi and Guangkai Jiang}, booktitle = {The Thirty-ninth Annual Conference on Neural Information Processing Systems Datasets and Benchmarks Track}, year = {2025}, url = {https://openreview.net/forum?id=vhHYTjMt9Z} }

搜集汇总
数据集介绍
main_image_url
构建方式
DetectiumFire数据集采用多源数据融合策略,整合了物联网设备采集、网络搜索及现有火灾数据库的视觉资料。通过大语言模型生成图像描述,并结合人工验证流程,确保标注质量与语义准确性。视频数据经过时序切割处理,生成标准化的十秒片段以适配时序模型训练需求,同时构建了涵盖火灾类型、严重程度等多维度的分层标注体系。
使用方法
研究者可通过Kaggle平台获取数据文件与预训练模型,利用配套脚本实现图像描述生成与视频片段切割。训练阶段需根据模型架构调整配置文件路径,如TimeSformer需配置CSV数据索引文件路径,VideoMamba则需修改运行脚本中的硬件参数。数据加载模块支持直接调用处理后的标注文件,实现端到端的模型训练与验证流程。
背景与挑战
背景概述
火灾理解作为计算机视觉与自然语言处理交叉领域的重要研究方向,近年来因多模态学习技术的突破而备受关注。DetectiumFire数据集由Zixuan Liu等研究者于2025年构建,旨在通过融合真实与合成火灾数据,为火灾检测、扩散模型训练及视觉语言任务提供标准化基准。该数据集通过Detectium机构发布,其多模态特性显著推动了火灾场景理解的技术边界,为智慧城市安防与灾害预警系统提供了关键数据支撑。
当前挑战
火灾视觉识别领域长期面临样本稀缺性与场景多样性的双重挑战,具体表现为真实火灾图像采集难度高、火势形态动态变化复杂。在数据集构建过程中,团队需克服多源数据标准化整合的困难,包括物联网设备与网络图像的异构数据处理,以及通过人工验证确保文本描述与视觉内容的精确对齐。此外,视频片段时序标注与多模态一致性维护亦构成关键技术瓶颈。
常用场景
经典使用场景
在火灾安全与计算机视觉交叉领域,DetectiumFire数据集为多模态任务提供了关键支持。其经典应用场景涵盖火灾检测模型的训练与评估,通过整合真实与合成火灾图像及视频数据,支持对象检测、扩散模型和视觉语言模型的开发。该数据集的高质量标注和人类偏好反馈机制,使研究人员能够构建更精准的火灾识别系统,尤其在复杂环境下的火焰分类和定位任务中表现卓越。
解决学术问题
DetectiumFire数据集致力于解决火灾理解中的多模态融合挑战,填补了传统视觉任务与语言描述之间的鸿沟。它通过提供细粒度注释和分层分类标签,支持火灾类型识别、严重性评估及跨模态对齐等核心学术问题。该资源显著提升了模型在真实场景中的泛化能力,为火灾动力学研究和智能预警系统的理论突破奠定了数据基础。
实际应用
该数据集的实际价值体现在智慧城市与工业安全领域,其多模态特性赋能了实时火灾监测系统的开发。基于物联网设备与网络采集的数据,可训练出适应室内外环境的火灾检测算法,应用于森林防火、建筑安全监控等场景。通过集成视觉语言模型,系统能自动生成火灾描述,辅助应急响应决策,提升公共安全管理的智能化水平。
数据集最近研究
最新研究方向
在火灾安全与智能感知领域,DetectiumFire数据集正推动多模态融合技术的前沿探索。该数据集通过整合真实与合成火灾数据,结合视觉与语言描述,为火灾检测、扩散模型优化及视觉语言模型训练提供关键支持。当前研究聚焦于利用YOLO系列模型实现高效目标检测,同时借助Stable Diffusion生成逼真火灾场景,并通过TimeSformer与VideoMamba等视频理解架构分析动态火势演变。这些进展不仅提升了火灾预警系统的实时性与准确性,还为应急响应和灾害管理提供了可扩展的解决方案,显著增强了跨模态人工智能在公共安全领域的应用潜力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作