RGB-Th-Bench

Name: RGB-Th-Bench
Creator: Aalto University, KTH Royal Institute of Technology, Detectium Oy
Published: 2025-03-27 18:11:22
License: 暂无描述

arXiv2025-03-27 更新2025-04-01 收录

下载链接：

http://arxiv.org/abs/2503.19654v2

下载链接

链接失效反馈

官方服务：

资源简介：

RGB-Th-Bench是一个针对视觉-热理解任务的高质量密集型多模态基准，包含58个RGB-热图像样本对和1624个问题。这些问题覆盖了14个核心评估或技能维度，每个样本对针对每个技能维度有四个独立的是非问题。数据集的问题和答案都是通过领域专家监督下手动注释的，旨在评估视觉语言模型在不依赖热输入和依赖热输入情况下的性能，涵盖场景理解、详细物体存在、实例属性等维度。

RGB-Th-Bench is a high-quality dense multimodal benchmark for visual-thermal understanding tasks. It contains 58 RGB-thermal image pairs and 1,624 questions. These questions cover 14 core evaluation or skill dimensions, and each image pair has four independent true-false questions for each skill dimension. Both the questions and answers are manually annotated under the supervision of domain experts, aiming to evaluate the performance of vision-language models both with and without thermal input, covering dimensions such as scene understanding, detailed object existence, and instance attributes.

提供机构：

Aalto University, KTH Royal Institute of Technology, Detectium Oy

创建时间：

2025-03-25

搜集汇总

数据集介绍

构建方式

RGB-Th-Bench的构建过程体现了严谨的科学方法论。研究团队通过FLIR ONE Edge Pro专业热成像设备自主采集29组RGB-热成像配对样本，确保数据源的原创性与专业性。所有1624个二元问题均由领域专家监督标注，每个样本覆盖14项技能维度的56个问题，形成密集评估矩阵。数据采集聚焦工业与住宅场景的风险检测需求，刻意规避军事监控等敏感领域，体现了研究伦理考量。

特点

该数据集开创性地构建了多模态理解的评估新范式。其核心价值在于14个精心设计的技能维度体系，涵盖从基础场景理解到复杂热力学属性分析的完整认知链条。独特的双精度指标设计（问题级准确率与技能级准确率）有效区分模型的表面性能与深层理解能力。样本问题呈现对抗性设计特点，如温度-色彩映射问题中包含互斥选项，可精准检测模型幻觉现象。与现有基准相比，其56:1的问答密度实现了对模型能力的立体化评估。

使用方法

使用RGB-Th-Bench需遵循严格的评估协议。研究者需通过标准化的提示模板（RGB-Txt或RGB-Th-Txt）输入多模态数据，模型需严格输出'Yes/No'二元响应。评估时需并行计算两个指标：问题级准确率（QAcc）反映基础性能，技能级准确率（SAcc）要求模型在特定维度全部4个关联问题上正确作答。该框架特别适用于检验模型在跨模态对齐、热成像特征提取等新兴能力上的表现，为改进预训练数据分布提供诊断依据。

背景与挑战

背景概述

RGB-Th-Bench是由Aalto University、KTH Royal Institute of Technology和Detectium Oy的研究团队于2025年推出的首个专注于评估视觉语言模型（VLMs）在RGB-热成像图像对理解能力的基准数据集。该数据集的创建填补了现有评估体系在红外视觉任务中的空白，突破了传统RGB基准的局限性。数据集包含1,600多个专家标注的是非问题，覆盖14项核心技能维度，采用问题级和技能级双重精度指标，为多模态学习提供了严谨的评估框架。其创新性体现在首次系统性地将热成像模态引入视觉语言理解评估，推动了工业检测、能源损耗分析等关键领域的技术发展。

当前挑战

该数据集主要解决热成像模态下多模态理解的三大挑战：一是现有VLMs在热成像特征提取上的性能局限，顶级模型技能级准确率不足18%；二是数据构建过程中面临的标注难题，热成像图像缺乏清晰物体边界，需依赖领域专家进行跨模态对齐标注；三是训练数据稀缺性挑战，目前缺乏大规模应用导向的专家标注热成像-文本配对数据集。此外，数据采集需使用专业热成像设备（如FLIR ONE Edge Pro），且每对RGB-热成像样本需生成56个问题以确保评估密度，这些因素显著增加了数据集构建的复杂度和成本。

常用场景

经典使用场景

RGB-Th-Bench作为首个专注于评估视觉语言模型（VLMs）在RGB-热成像图像对理解能力的基准测试，其经典使用场景主要集中于多模态模型的跨光谱理解能力验证。该数据集通过1600余个专家标注的二元问题，覆盖场景理解、物体空间关系、热属性对齐等14项技能维度，为研究者提供了系统评估模型在可见光与红外光谱间关联推理能力的标准化工具。其双精度指标设计（问题级与技能级准确率）尤其适用于检验模型在对抗性样本和幻觉响应中的鲁棒性，成为推动多模态模型在热成像领域发展的关键实验平台。

衍生相关工作

该数据集已催生多领域延伸研究：在模型架构方面，InternVL2.5系列通过引入跨模态注意力机制提升热图像对齐能力；Qwen2.5-VL-7B则证明专用指令微调对热属性理解的增益。评测方法上，研究者借鉴其技能级评估思想开发了MM-Vet2的严苛测试标准。数据构建领域，后续工作如ThermoCaption尝试扩展其标注范式构建大规模热成像-文本预训练数据集。这些衍生成果共同推动了《IEEE Transactions on Pattern Analysis and Machine Intelligence》等顶刊对跨模态理解专题的关注度。

数据集最近研究