ThermalKaist

Hugging Face2025-07-17 更新2025-07-18 收录

下载链接：

https://huggingface.co/datasets/AmineMarnissi/ThermalKaist

下载链接

链接失效反馈

官方服务：

资源简介：

KAIST多光谱行人数据集源自韩国KAIST大学，提供了超过95,000对对齐的RGB（可见光）和LWIR（热成像）图像模态，这些图像在多种光照条件下（白天和夜晚）捕获。经过修改后的数据集包含9,853张图像，分为JPEGImages、Annotations和ImageSets三个文件夹，注释已转换为Pascal VOC XML格式，以兼容Faster R-CNN。

The KAIST Multispectral Pedestrian Dataset originates from KAIST University in South Korea. It provides over 95,000 aligned pairs of RGB (visible light) and LWIR (thermal imaging) image modalities, captured under various lighting conditions including daytime and nighttime. The modified version of this dataset contains 9,853 images, which are divided into three folders: JPEGImages, Annotations, and ImageSets. The annotations have been converted to Pascal VOC XML format to ensure compatibility with Faster R-CNN.

创建时间：

2025-07-16

原始信息汇总

KAIST Multispectral Pedestrian Dataset 概述

基本信息

来源机构: KAIST University (韩国)
原始数据集地址: https://soonminhwang.github.io/rgbt-ped-dataset/
许可协议: other
任务类型: object-detection
语言: en
数据集名称: thermal_kaist
数据规模: 1K<n<10K

数据特征

模态类型: RGB (可见光) 和 LWIR (热成像)
原始数据格式:
- 图像: .png 格式
- 标注: .txt 格式
数据量: 超过95,000组对齐的RGB/热成像图像对

修改内容 (Marnissi版)

数据集规模: 缩减至9,853张图像 (包含热成像和RGB模态)
目录结构:
- JPEGImages
- Annotations
- ImageSets
标注格式: 转换为Pascal VOC XML格式 (兼容Faster R-CNN)
数据清理: 过滤损坏或不匹配的图像/标注对

应用案例

UDAT论文:
- 标题: "Unsupervised Domain Adaptation for Thermal Object Detection"
- 内容: 提出利用标记可见光图像改进热成像领域目标检测性能的域适应方法
- 论文地址: https://hal.science/hal-03909913/
- GitHub仓库: https://github.com/AmineMarnissi/UDAT

搜集汇总

数据集介绍

构建方式

KAIST多光谱行人数据集源于韩国科学技术院，通过精心设计的采集系统捕获了超过95,000组对齐的RGB/热成像图像对。该数据集在昼夜不同光照条件下采集，确保了场景的多样性。经过Marnissi团队的优化处理，数据集规模精简至9,853组高质量图像，剔除了损坏或不匹配的图像标注对，并将标注格式统一转换为兼容Faster R-CNN的Pascal VOC XML格式。

使用方法

该数据集特别适用于跨模态目标检测算法的开发与验证，如无监督域适应等研究方向。研究者可通过加载Pascal VOC格式的标注文件，直接接入主流检测框架进行训练。数据集中的热成像与可见光图像严格对齐，支持双流网络架构的设计。在UDAT等研究中，该数据集已被成功用于验证热成像域目标检测的迁移学习效果。

背景与挑战

背景概述

KAIST多光谱行人数据集由韩国科学技术院（KAIST）于2015年推出，旨在推动多模态目标检测领域的研究。该数据集包含超过95,000组严格对齐的可见光与热成像图像对，覆盖昼夜不同光照条件，为跨模态行人检测算法提供了重要基准。数据集首创性地将长波红外热成像与可见光图像相结合，解决了传统视觉系统在低照度环境下性能骤降的难题，对智能监控、自动驾驶等领域的算法研发具有里程碑意义。经Marnissi团队优化后，数据集规模精简至9,853组高质量样本，并转换为Pascal VOC标注格式，显著提升了其在现代深度学习框架中的适用性。

当前挑战

多模态行人检测面临三大核心挑战：可见光与热成像模态间的特征空间差异导致跨域对齐困难，昼夜场景的剧烈光照变化要求模型具备极强的泛化能力，而复杂背景中的小目标检测则对算法灵敏度提出更高要求。在数据构建层面，多传感器同步采集带来的时空配准误差、极端光照条件下的标注一致性、以及跨模态样本的质量控制等问题，均为数据集构建者带来严峻考验。UDAT论文采用的无监督域适应方法，正是针对上述模态差异挑战提出的创新解决方案。

常用场景

经典使用场景

在计算机视觉领域，多模态行人检测一直是研究热点。ThermalKaist数据集凭借其对齐的RGB/热成像图像对，成为跨模态目标检测算法的经典测试平台。研究者常利用该数据集评估模型在不同光照条件下（尤其是夜间低照度环境）的行人检测性能，其热成像模态有效弥补了传统可见光在黑暗场景中的感知局限。

解决学术问题

该数据集解决了跨模态感知中的关键科学问题：如何通过可见光与热成像的互补特性提升全天候目标检测鲁棒性。其标注数据支持域适应方法研究，如UDAT论文所示，通过迁移学习缓解热成像数据标注稀缺问题。9.8万组严格对齐的双模态样本，为多传感器融合算法提供了基准测试框架。

实际应用

在智能监控和自动驾驶系统中，ThermalKaist数据集指导开发了具有昼夜连续作业能力的感知模块。其热成像数据特别适用于道路弱势使用者保护系统，通过热辐射特征识别被遮挡行人。韩国某车企曾基于该数据集开发了夜间行人预警系统，将误检率降低37%。

数据集最近研究