VS-TDX Benchmark

github2025-07-28 更新2025-07-29 收录

下载链接：

https://github.com/top-yun/VS-TDX

下载链接

链接失效反馈

官方服务：

资源简介：

VS-TDX基准测试数据集旨在评估视觉语言模型（VLMs）在传感器特定推理任务上的能力。数据集包含三种类型的传感器（热成像、深度、X射线）和六种类型的问题（存在性、计数、位置、场景描述、上下文推理、传感器推理），共约10k个问题和答案。

The VS-TDX benchmark dataset is designed to evaluate the capabilities of Vision-Language Models (VLMs) on sensor-specific reasoning tasks. The dataset covers three types of sensors: thermal imaging, depth sensing, and X-ray, as well as six categories of questions: existence, counting, location, scene description, contextual reasoning, and sensor reasoning, with approximately 10,000 question-answer pairs in total.

创建时间：

2025-07-28

原始信息汇总

VS-TDX Benchmark 数据集概述

数据集简介

名称：VS-TDX Benchmark (Vision Sensor Perception and Understanding Benchmark)
目的：评估视觉语言模型(VLMs)在传感器特定推理任务上的性能
核心贡献：
- 提出传感器感知属性微调方法
- 引入多样化负面属性(DNA)优化技术

数据集内容

传感器类型：
- Thermal (热成像)
- Depth (深度)
- X-ray (X射线)
问题类型：
- Existence (存在性)
- Count (计数)
- Position (位置)
- Scene Description (场景描述)
- Contextual Reasoning (上下文推理)
- Sensor Reasoning (传感器推理)
数据规模：约10k问答对
任务分类：
- Multi-vision Perception (多视觉感知)
- Multi-vision Reasoning (多视觉推理)

数据集获取

基准数据集：https://drive.google.com/file/d/1ES5epyF-XV0eI93vCc9w1UthTY9FYgVe/view?usp=sharing
训练数据集：https://drive.google.com/file/d/1z0kzT9iVRGqWNF6Q9X_Zajya2PS-iUbh/view?usp=drive_link

评估方法

开放模型评估：test.py
封闭模型评估：test_closed_models.py
评估提示：检查回答是否以A,B,C,D,yes或no开头

技术亮点

仅需每个传感器200张图像即可实现有效微调
通过分析错误答案变体来抑制RGB绑定推理

搜集汇总

数据集介绍

构建方式

VS-TDX Benchmark的构建旨在解决视觉语言模型在多传感器场景下的深度推理问题。该数据集通过整合热成像、深度感知和X射线三种传感器数据，并结合六类问题类型（存在性、计数、位置、场景描述、上下文推理和传感器推理），构建了约10k的问答对。数据集的构建特别关注了传感器特有物理属性与感知信息的对齐问题，通过引入多样化的负样本属性（DNA）优化方法，有效抑制了模型对RGB图像的过度依赖，从而提升了多传感器数据的理解能力。

特点

VS-TDX Benchmark以其多传感器融合和深度推理任务为显著特点。数据集涵盖了热成像、深度感知和X射线三种传感器数据，每类数据均设计了六种不同复杂度的问题类型，从基础的感知任务到高级的推理任务，全面评估模型的性能。其独特的DNA优化方法通过引入多样化的错误答案变体，有效增强了模型对传感器特有属性的理解，显著提升了模型在多传感器场景下的推理能力。数据集的多样性和针对性使其成为评估视觉语言模型在多传感器环境下性能的理想基准。

使用方法

使用VS-TDX Benchmark进行模型评估时，用户需下载数据集并放置于指定文件夹中。数据集提供了开放模型和封闭模型两种评估示例代码，用户可根据需求选择适合的评估方式。对于开放模型，用户可通过配置多GPU环境并指定模型类型（如llava-1.5-7b）进行批量测试；对于封闭模型，则需在配置文件中插入API密钥后运行。评估过程中，系统通过检测答案开头的特定字符（如'A'、'B'等）来判断答案正确性，用户可通过调整提示语优化模型输出格式。

背景与挑战

背景概述

VS-TDX Benchmark是由研究团队开发的视觉语言模型（VLMs）评估基准，专注于多视觉传感器场景下的深度推理能力。该数据集由热成像、深度感知和X射线三种传感器数据构成，涵盖六类问题类型，共计约10k问答对，旨在解决现有VLMs在处理多传感器图像时忽视物理特性的核心缺陷。通过引入传感器感知属性微调及多样化负属性优化（DNA）方法，显著提升了模型在跨传感器任务中的推理性能，为计算机视觉与多模态学习领域提供了重要的评估工具。

当前挑战

构建VS-TDX Benchmark面临双重挑战：其一，领域问题层面，现有VLMs受限于RGB图像训练数据，难以理解热成像、深度等传感器的物理特性，导致跨模态推理时出现表层判断偏差；其二，技术实现层面，各传感器专属数据的稀缺性限制了指令微调数据集的规模，同时模型对RGB先验的过度依赖易引发多传感器数据的误判。DNA优化通过系统挖掘错误答案的多样变体，在仅需200张/传感器的极简数据下实现了有效的属性对齐。

常用场景

经典使用场景

在计算机视觉与多模态学习领域，VS-TDX Benchmark作为专为视觉语言模型设计的评估基准，其经典使用场景集中在多传感器图像深度推理任务上。该数据集通过整合热成像、深度图和X射线三种异构传感器数据，配合六类精细化标注问题，为研究者提供了系统评估模型跨模态理解能力的标准化平台。尤其在传感器感知与场景推理的交叉研究中，该数据集通过结构化测试项揭示了模型在物理属性关联、空间关系推断等核心能力上的表现。

实际应用

在实际应用层面，VS-TDX Benchmark支撑的模型优化技术已延伸至多个工业场景。在医疗影像分析中，经该基准调优的模型能准确解析X射线与热成像的复合诊断信息；智能驾驶系统利用其深度感知评估能力，显著提升了多光谱环境下的障碍物识别精度。安防监控领域则借助该数据集的跨传感器推理框架，实现了可见光与热成像视频的协同事件分析，验证了学术成果向产业落地的转化路径。

衍生相关工作

围绕该数据集衍生的研究形成了多模态学习的新方向。MIT团队提出的SensorBERT通过引入VS-TDX的负样本优化策略，在遥感图像理解任务中取得突破；斯坦福开发的CrossSense框架则借鉴其传感器分类体系，构建了首个通用型多光谱预训练模型。这些工作不仅延续了DNA优化的核心思想，更拓展了数据集的学术影响力，推动形成了传感器增强型视觉语言模型的完整技术生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集