ThermEval-B; ThermEval-D

Name: ThermEval-B; ThermEval-D
Creator: 印度理工学院·甘地纳格尔分校; 卡内基梅隆大学
Published: 2026-02-17 02:16:19
License: 暂无描述

arXiv2026-02-17 更新2026-02-18 收录

下载链接：

https://github.com/AyushShrivstava/ThermEval_KDD

下载链接

链接失效反馈

官方服务：

资源简介：

ThermEval是由印度理工学院·甘地纳格尔分校和卡内基梅隆大学联合构建的热图像视觉语言理解基准，包含ThermEval-B评估框架和ThermEval-D标注数据集。其中ThermEval-B整合了三个子集的5.5万条热视觉问答对，覆盖模态识别、温度推理等7项任务；ThermEval-D则首次提供了包含室内外场景的千幅热图像，每幅均带有像素级温度图及人体部位语义标注，支持1.6万条精细推理问答。数据通过FLIR红外相机采集，经伦理委员会批准后由专业标注团队完成温度标定与区域划分。该数据集旨在解决现有视觉语言模型在热成像领域的评估空白，特别适用于夜间监控、医疗筛查等需温度感知的关键场景。

ThermEval is a thermal image vision-language understanding benchmark jointly developed by the Indian Institute of Technology Gandhinagar and Carnegie Mellon University, which includes the ThermEval-B evaluation framework and the ThermEval-D annotated dataset. ThermEval-B integrates 55,000 thermal visual question-answer pairs across three subsets, covering 7 tasks such as modality recognition and temperature reasoning. ThermEval-D, for the first time, provides 1,000 thermal images covering indoor and outdoor scenarios, each paired with pixel-level temperature maps and semantic annotations of human body parts, supporting 16,000 fine-grained reasoning question-answer pairs. The data was collected via FLIR infrared cameras, and temperature calibration and regional division were completed by a professional annotation team following approval from an ethics committee. This benchmark aims to fill the evaluation gap of existing vision-language models in the thermal imaging field, and is particularly suitable for critical scenarios requiring temperature perception such as nighttime surveillance and medical screening.

提供机构：

印度理工学院·甘地纳格尔分校; 卡内基梅隆大学

创建时间：

2026-02-17

搜集汇总

数据集介绍

构建方式

在热成像视觉语言模型评估领域，ThermEval-B与ThermEval-D的构建体现了系统化的数据整合与创新采集策略。ThermEval-B作为一个结构化基准，通过整合公开数据集（如FLIR-ADAS与LLVIP）与自主构建的ThermEval-D，形成了约55,000个热视觉问答对。其构建过程严格遵循任务层次化设计原则，从基础的模态识别到复杂的温度推理，逐步提升任务难度。ThermEval-D的创建则填补了现有数据空白，采集了涵盖室内外多样化场景的千余幅热图像，每幅均配有密集的逐像素温度图及语义化的人体部位标注，并通过三名专家标注者进行多边形分割与一致性校验，确保了标注的高精度与可靠性。

使用方法

该数据集的使用方法遵循标准化的评估协议与可复现的实验流程。研究者可利用提供的代码库，在零样本提示设置下对视觉语言模型进行统一评估，涵盖所有七个任务。评估过程使用固定的提示模板，无需针对热数据进行任务特定的微调。对于需要解析模型异构输出的情况，可采用基于大语言模型的解析器来标准化答案格式。数据集的划分确保了任务与子任务的平衡，支持分层抽样以进行代表性评估。此外，数据集支持监督微调实验，可用于探究领域自适应对热理解能力的提升潜力，为诊断和改进模型在热信号上的接地性提供了系统化框架。

背景与挑战

背景概述

ThermEval-B与ThermEval-D数据集由印度理工学院甘地讷格尔分校与卡内基梅隆大学的研究团队于2026年联合推出，旨在系统评估视觉语言模型在热成像领域的理解能力。热成像通过捕捉物体发射的红外辐射来编码温度信息，在夜间监控、自动驾驶、医疗筛查等可见光失效的场景中具有关键应用价值。然而，现有视觉语言模型主要基于RGB图像训练，缺乏对热成像特有的温度信号进行感知与推理的能力。该数据集的创建填补了热成像领域系统性评估基准的空白，通过构建包含约55,000个热视觉问答对的ThermEval-B基准，以及提供密集像素级温度标注与语义身体部位注释的ThermEval-D数据集，为推进多模态模型在物理传感模态上的研究奠定了重要基础。

当前挑战

ThermEval数据集旨在解决视觉语言模型在热成像理解中的核心挑战，包括温度基础推理、伪彩色映射鲁棒性以及语言先验依赖等问题。在领域问题层面，模型需从热图像中提取并解释温度信号，而非依赖RGB图像中的颜色与纹理特征，这要求模型具备跨模态的物理感知能力。在构建过程中，挑战主要源于现有热成像数据集普遍缺乏密集的像素级温度标注与多样化的语义上下文，导致难以支持精细的温度推理任务。此外，热图像常以伪彩色形式呈现，其视觉外观易受色彩映射变换的影响，增加了模型鲁棒性评估的复杂性。这些挑战凸显了专门针对热成像设计评估基准的必要性，以推动视觉语言模型在物理传感模态上的实质性进展。

常用场景

经典使用场景

在热成像视觉语言模型评估领域，ThermEval-B作为结构化基准测试集，其经典使用场景在于系统性地评估模型在热图像上的多模态理解能力。该数据集通过七项渐进式任务，涵盖模态识别、伪彩图变换鲁棒性、人体计数、色条解读、热推理及温度估计等核心维度，为研究者提供了全面诊断模型热感知缺陷的标准化框架。尤其在热图像与可见光图像并存的自动驾驶、安防监控等实际环境中，该基准能够精准揭示模型依赖语言先验而非热信号的根本局限，成为推动热视觉语言建模进步的关键工具。

解决学术问题

ThermEval系列数据集有效解决了热成像视觉语言理解领域长期存在的评估空白问题。传统视觉语言模型在RGB图像上表现优异，但缺乏对热图像物理温度信号的感知与推理能力，而现有基准大多围绕可见光设计，无法衡量模型在热模态上的真实性能。该数据集通过引入密集像素级温度标注和语义身体部位注释，首次支持温度接地推理任务的定量评估，揭示了模型在温度估计、跨个体热比较等任务中的系统性失败。其意义在于确立了热理解作为一个独立的学术挑战，促使研究社区超越RGB中心假设，发展真正融合物理传感与视觉推理的新型多模态架构。

实际应用

ThermEval数据集的实际应用场景紧密关联于热成像技术的关键领域。在自动驾驶系统中，热相机能够在低光照或恶劣天气条件下检测行人，该数据集通过人体计数和温度估计任务，可评估模型在夜视场景下的可靠性。在医疗筛查方面，非接触式发热检测需要精确的体表温度测量，数据集的区域温度估计任务能够检验模型是否满足临床精度要求。此外，在工业故障检测、搜救行动和安防监控中，模型对热异常区域的识别与温度解读能力直接影响操作安全性，ThermEval提供的基准测试为这些高风险应用的模型部署提供了可信的性能验证依据。

数据集最近研究