RGB-Th-Bench

Name: RGB-Th-Bench
Creator: Aalto University, KTH Royal Institute of Technology, Detectium Oy
Published: 2025-03-25 21:43:47
License: 暂无描述

arXiv2025-03-25 更新2025-03-28 收录

下载链接：

https://drive.google.com/file/d/1aNaKYpI0lirhDUm34eq6PChA0pmjoXUD/view

下载链接

链接失效反馈

官方服务：

资源简介：

RGB-Th-Bench是由Aalto University、KTH Royal Institute of Technology和Detectium Oy共同开发的高质量密集型多模态基准数据集，旨在评估视觉语言模型对RGB-热成像对的理解能力。该数据集包含58个RGB-热成像样本对和1624个问题，覆盖14个核心评估或技能维度，每个样本对针对每个技能维度有四个独立的是非问题，确保从所有可能的技能维度对样本对进行彻底测试，使该基准成为一个密集的评估设置。

RGB-Th-Bench is a high-quality dense multimodal benchmark dataset jointly developed by Aalto University, KTH Royal Institute of Technology, and Detectium Oy, aiming to evaluate the comprehension capabilities of vision-language models for RGB-thermal image pairs. This dataset includes 58 RGB-thermal image sample pairs and 1624 questions, covering 14 core evaluation or skill dimensions. Each sample pair has four independent yes-no questions for each skill dimension, ensuring thorough testing of the sample pairs across all possible skill dimensions, thereby making this benchmark a dense evaluation setup.

提供机构：

Aalto University, KTH Royal Institute of Technology, Detectium Oy

创建时间：

2025-03-25

搜集汇总

数据集介绍

构建方式

RGB-Th-Bench数据集的构建过程体现了严谨的科学方法论。研究团队通过精心筛选29对RGB-热成像配对样本，采用FLIR ONE Edge Pro专业设备进行原始数据采集，确保成像质量与数据真实性。每对图像配套56个专家标注的二元问题，覆盖14个技能维度，形成总计1624个问答对的密集评估体系。标注过程在领域专家监督下完成，所有问题设计遵循严格的评估框架，既包含常规认知问题，也设置对抗性提问以测试模型鲁棒性。数据来源严格限定于自主采集或内部文档，有效避免了预训练数据污染问题。

特点

该数据集的核心价值在于其多维度的评估体系设计。通过划分RGB-Txt和RGB-Th-Txt两大提示组，分别评估模型在常规视觉与热成像跨模态理解能力。独特的双精度指标（问题级精度与技能级精度）设置，尤其是要求模型在特定技能维度下连续答对4个相关问题才算通过的严格标准，显著提升了评估的区分度。数据样本聚焦工业与住宅场景中的风险检测需求，如绝缘缺陷、过热异常等实际问题，使基准测试兼具学术严谨性与工程实用价值。相较于现有单模态评估体系，其56问/样本的密度设计实现了对模型能力的全方位压力测试。

使用方法

使用该数据集需遵循其设计的双层评估协议。在基础层面，研究者可通过标准问答接口输入RGB-热成像对，记录模型在1600+二元问题上的回答准确率（QAcc）。进阶评估则需计算技能级精度（SAcc），即模型在每个技能维度下4连问全对的通过率。评估时需严格遵循预设的提示模板格式，确保所有模型在相同条件下测试。数据集配套提供详细的技能维度定义指南，包括场景理解、热属性推理等14类任务的评估标准，研究者可据此分析模型在不同认知层级的表现差异。值得注意的是，该基准特别强调对模型幻觉和对抗样本抵抗力的检测，建议结合误案例分析进行深度模型诊断。

背景与挑战

背景概述

RGB-Th-Bench是由Aalto University、KTH Royal Institute of Technology和Detectium Oy的研究团队于2025年推出的首个专注于评估视觉语言模型（VLMs）在RGB-热成像图像对理解能力的基准数据集。该数据集的诞生源于当前VLMs评估主要局限于RGB图像基准的现状，而红外视觉任务的多模态理解能力评估存在显著空白。RGB-Th-Bench通过提供1,600多个专家标注的二元问题，覆盖14个技能维度，构建了严格的模型评估框架。其创新性体现在采用问题级和技能级双重精度指标，特别关注模型对抗幻觉和对抗性响应的鲁棒性。该数据集填补了可见光-红外跨模态研究的基础设施缺口，为能源检测、工业异常识别等关键领域提供了首个系统性评估工具。

当前挑战

RGB-Th-Bench面临的核心挑战体现在两个层面：在领域问题层面，现有VLMs对热成像特征与RGB模态的关联理解存在显著性能鸿沟，最优模型技能级准确率仅为17.24%，暴露出现有模型对温度-色彩映射、热力学异常检测等专业认知的局限性。在构建层面，数据采集面临专业标注成本高昂的难题，需依赖FLIR ONE Edge Pro等专业设备获取严格配对的跨模态数据；标注过程需融合计算机视觉与热力学领域知识，如热异常判断需结合材料导热系数等物理特性。此外，基准设计需平衡评估密度与泛化性，每个图像对设计56个问题以确保对14个技能维度的全面覆盖，这对问题间的正交性和标注一致性提出极高要求。

常用场景

经典使用场景

在视觉-语言模型（VLMs）的研究领域，RGB-Th-Bench作为一个专注于评估模型对RGB-热成像图像对理解能力的基准测试，其经典使用场景主要集中在模型的多模态推理能力测试上。通过提供1600多个专家标注的是/非问题，覆盖14个不同的技能维度，该数据集能够全面评估模型在热成像视觉任务中的表现，尤其是在工业或住宅环境中的风险与异常检测方面。

实际应用

在实际应用中，RGB-Th-Bench的数据集特别适用于需要热成像分析的场景，如工业设备的热异常检测、住宅区的能源效率评估以及电气设备的安全监控。这些应用场景要求模型不仅能理解可见光图像，还需准确解析热成像数据，以识别潜在的风险或异常。

衍生相关工作

RGB-Th-Bench的推出激发了多项相关研究，尤其是在多模态模型的热成像理解能力提升方面。例如，基于该数据集的评估结果，研究者们开发了新的预训练策略和模型架构优化方法，以增强模型对热成像数据的处理能力。此外，该数据集也为跨模态对齐和热成像特定任务的模型微调提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集