HandVQA

Name: HandVQA
Creator: 蔚山科学技术院; 阿伯丁大学; 伦敦大学学院; Fogsphere (Redev.AI Ltd)
Published: 2026-03-27 20:42:26
License: 暂无描述

arXiv2026-03-27 更新2026-03-31 收录

下载链接：

https://kcsayem.github.io/handvqa/

下载链接

链接失效反馈

官方服务：

资源简介：

HandVQA是由蔚山科学技术院等机构联合开发的大规模诊断性基准数据集，专注于评估视觉语言模型对手部细粒度空间关系的理解能力。该数据集基于FreiHAND、InterHand2.6M和FPHA等高质量3D手部数据集构建，包含160万个控制性多选题，涵盖手部关节角度、距离和三维相对位置等空间关系。通过自动化流程将3D关节坐标转化为结构化自然语言问题，数据集支持机器人手术、AR/VR交互等需要精确手部姿态理解的场景，其零样本迁移能力在手势识别任务中实现了10.33%的准确率提升。

HandVQA is a large-scale diagnostic benchmark dataset co-developed by institutions including Ulsan National Institute of Science and Technology (UNIST) and other organizations, focusing on evaluating the capability of visual language models to understand fine-grained spatial relationships of hands. Built on high-quality 3D hand datasets such as FreiHAND, InterHand2.6M and FPHA, this dataset contains 1.6 million controlled multiple-choice questions covering spatial relationships including hand joint angles, distances and 3D relative positions. By converting 3D joint coordinates into structured natural language questions via an automated pipeline, the dataset supports scenarios requiring precise hand pose understanding such as robotic surgery, AR/VR interaction and other related application fields. Its zero-shot transfer capability achieves a 10.33% accuracy improvement in gesture recognition tasks.

提供机构：

蔚山科学技术院; 阿伯丁大学; 伦敦大学学院; Fogsphere (Redev.AI Ltd)

创建时间：

2026-03-27

原始信息汇总

HandVQA 数据集概述

数据集基本信息

数据集名称：HandVQA
发布会议：CVPR 2026
论文标题：HandVQA: Diagnosing and Improving Fine-Grained Spatial Reasoning about Hands in Vision-Language Models
论文地址：https://arxiv.org/abs/2603.26362
核心目标：诊断并提升视觉语言模型（VLMs）对精细手部三维几何的空间推理能力。

数据集构建与规模

数据来源：基于高质量的三维手部数据集构建，包括 FreiHAND、InterHand2.6M 和 FPHA。
问题规模：包含超过 160 万（1.6M+）个受控的多项选择题。
问题生成：问题由三维关节坐标确定性地生成，并渲染为自然语言的多项选择选项，确保明确的几何基础。

评估任务与类型

HandVQA 评估五种类型的手部空间理解任务：

角度：评估手指弯曲角度，分为四类（完全向内弯曲、向内弯曲、轻微向内弯曲、伸直）。
距离：评估关节间距离，分为三类（接近、分开、广泛分开）。
相对位置 X：评估左右关系（左侧、右侧）。
相对位置 Y：评估上下关系（上方、下方）。
相对位置 Z：评估前后关系（前方、后方）。

关键特性与贡献

诊断针对性：针对姿势幻觉问题，探测关节级别的空间错误。
关注部分-整体关系：专注于单个对象（手）内部的部分-整体空间关系，而非对象间关系。
三维坐标基础：所有问题均基于真实的三维坐标，测试欧几里得概念。
结构化几何理解：评估标准 VQA 基准中 largely missing 的诊断轴。
大规模覆盖：涵盖 100+ 关节组合和 5 种空间推理类型。

主要发现

精细关节理解具有挑战性：即使是强大的视觉语言模型也难以理解细微的手指弯曲和关节姿势。
距离推理存在系统性偏差：基础模型经常默认选择视觉上看似合理的“接近”预测。
方向性空间推理提升显著：左右、上下、前后等关系通过明确的 3D 基础训练得到显著改善。
支持零样本迁移：从 HandVQA 学习到的空间知识可以零样本迁移到下游任务，提升手势识别（+10.33%）和手-物体交互识别（+2.63%）的性能。
改善置信度校准：微调后的模型在获得更高准确率的同时，表现出更可靠的置信度估计。

基准测试模型

评估了最先进的视觉语言模型，包括 LLaVA、DeepSeek、Qwen-VL 等，涵盖基础版本和 LoRA 微调设置。

搜集汇总

数据集介绍

构建方式

在计算机视觉与多模态推理领域，精细的空间理解能力是模型迈向真实世界应用的关键。HandVQA数据集通过一个全自动的生成流程，将高质量的三维手部姿态数据转化为大规模的视觉问答对。该流程以FreiHAND、InterHand2.6M和FPHA等数据集提供的精确三维关节坐标为基础，首先提取连续的姿态描述符，包括关节角度、关节间欧氏距离以及沿X、Y、Z轴的相对位置。随后，通过预定义的阈值将这些连续值离散化为具有明确语义的类别标签，并利用确定的句法模板生成自然语言描述。最终，为每张图像构建涵盖五种空间推理子任务（角度、距离、相对位置X/Y/Z）的多项选择题，确保了数据在几何上的严谨性与语言上的无歧义性。

使用方法

HandVQA数据集为评估和提升视觉语言模型的细粒度空间推理能力提供了标准化框架。研究者首先可利用该数据集的测试集对各类先进模型进行基准评估，量化它们在关节角度、距离和相对位置等子任务上的表现，从而诊断其空间理解能力的薄弱环节。随后，可以将数据集的训练集用于模型的参数高效微调，例如采用LoRA等适配器技术，使模型学习从图像到三维空间关系的映射。经过HandVQA训练的模型，其获得的空间知识能够直接迁移至未见过的、需要对手部进行精细理解的下游任务，如静态手势分类或动态手-物交互视频理解。用户只需遵循标准的视觉问答格式输入图像和问题，即可调用模型进行推理，并通过其答案准确率系统性地衡量模型的空间认知水平。

背景与挑战

背景概述

HandVQA数据集由UNIST等机构的研究团队于2026年提出，旨在系统评估视觉语言模型在精细空间推理方面的能力，特别是针对人类手部解剖结构的理解。该数据集基于高质量的三维手部数据集构建，包含超过160万个控制性多项选择题，专注于探究手部关节间的角度、距离及相对位置等空间关系。其核心研究问题在于揭示当前视觉语言模型在理解复杂手部姿态时存在的系统性局限，如关节几何误判和泛化能力不足。HandVQA不仅为模型诊断提供了标准化基准，还通过零样本迁移实验证明了其在手势识别等下游任务中的显著改进效果，对机器人辅助手术、增强现实等高风险领域的可靠人机交互具有重要影响力。

当前挑战

HandVQA致力于解决视觉语言模型在精细手部空间推理领域的核心挑战，包括模型对手部关节角度、距离及三维相对位置等几何关系的系统性误判，以及由此引发的姿态幻觉和泛化能力薄弱问题。在构建过程中，研究团队面临多重挑战：首先，需从FreiHAND等多个异构数据集中提取并归一化三维关节坐标，确保空间度量的准确性与一致性；其次，设计自动化流水线将连续几何描述转化为离散的语言表述时，必须避免语义模糊性，例如需剔除视觉上难以区分的“对齐”关系案例以保持问题清晰性；此外，生成大规模多项选择题时需平衡各类空间关系的覆盖范围，同时保持问题模板的多样性与解剖学合理性，以全面评估模型的推理能力。

常用场景

经典使用场景

在视觉语言模型（VLMs）的评估与优化领域，HandVQA数据集被广泛用于诊断模型在精细空间推理方面的能力，特别是针对手部关节的几何关系理解。该数据集通过构建超过160万个基于3D手部姿态的多选题，系统性地考察模型对关节角度、距离及相对位置等空间概念的解析能力。研究人员通常利用HandVQA对现有VLMs（如LLaVA、DeepSeek和Qwen-VL）进行基准测试，并通过轻量级微调技术（如LoRA）探索模型在空间推理任务上的改进潜力，从而揭示模型在复杂手部姿态理解中的系统性缺陷。

解决学术问题

HandVQA核心解决了视觉语言模型在精细空间推理方面的关键学术问题。传统VLMs虽然在通用视觉问答任务中表现接近人类，但在处理手部关节的细微空间关系时，常出现关节部分幻觉、几何解释错误及泛化能力不足等局限。该数据集通过将手部姿态解构为角度、距离和三维相对位置等子任务，为模型提供了明确的几何监督信号，从而弥补了现有基准在空间推理评估上的空白。其意义在于为多模态模型的几何理解能力建立了可量化的诊断标准，并推动了模型在机器人辅助手术、芯片制造等高风险场景中的可靠应用。

实际应用

HandVQA的实际应用场景广泛覆盖了需要精确手部姿态理解的领域。在机器人辅助手术中，模型通过对手部关节细微弯曲的准确识别，可避免因手势误判导致的操作风险；在增强现实与虚拟现实交互中，该数据集训练的模型能够提升手势控制的精准度，确保用户意图的可靠传达；在工业制造领域，如芯片生产中的机械臂模仿人类动作，模型对指尖角度的精确推理有助于减少微观操作误差。此外，HandVQA还支持手语识别、手物交互分析等任务，为智能系统的安全部署提供关键技术支撑。

数据集最近研究