HRIBench
收藏arXiv2025-06-26 更新2025-06-28 收录
下载链接:
https://github.com/interaction-lab/HRIBench
下载链接
链接失效反馈官方服务:
资源简介:
HRIBench是一个视觉问答(VQA)基准,旨在评估视觉语言模型(VLMs)在人类-机器人交互(HRI)中感知人类行为的能力。该数据集包含五个关键领域:非言语提示理解、言语指令理解、人-机器人-物体关系理解、社交导航和个人识别。HRIBench通过从真实世界的HRI环境中收集数据,并对剩余四个领域利用公开可用的数据集来构建。每个领域整理了200个VQA问题,总共1000个问题。该数据集的应用领域旨在解决实时HRI中的核心感知能力问题,例如理解细粒度多模态提示、解决模糊的语言-视觉指令和进行现实世界的空间和物理推理。
HRIBench is a visual question answering (VQA) benchmark designed to evaluate the capability of vision-language models (VLMs) to perceive human behaviors in human-robot interaction (HRI) scenarios. This dataset covers five core domains: nonverbal cue comprehension, verbal instruction understanding, human-robot-object relationship comprehension, social navigation, and person identification. HRIBench is constructed by collecting data from real-world HRI environments and leveraging publicly available datasets for the remaining four domains. Each domain contains 200 curated VQA questions, totaling 1,000 questions overall. The target application scenarios of this dataset aim to address core perceptual capabilities in real-time HRI, such as understanding fine-grained multimodal prompts, resolving ambiguous language-visual instructions, and conducting real-world spatial and physical reasoning.
提供机构:
南加州大学维特比工程学院计算机科学系
创建时间:
2025-06-26
原始信息汇总
HRIBench数据集概述
数据集简介
- HRIBench是一个视觉问答(VQA)基准测试数据集,专为评估视觉语言模型(VLMs)在多种人类感知任务上的表现而设计。
数据集目的
- 旨在评估视觉语言模型在与人机交互(HRI)相关的关键人类感知任务中的性能。
适用领域
- 视觉问答(VQA)
- 人机交互(HRI)
- 视觉语言模型(VLMs)评估
搜集汇总
数据集介绍

构建方式
HRIBench的构建融合了真实人机交互环境的数据采集与公开数据集的精心筛选。研究团队通过标准化脚本在两种交互条件下(与机器人交互、与人交互)录制了24种手势、17种身体姿态等非语言线索,并基于CoMaD等五个领域的权威数据集,采用视觉问答(VQA)形式构建了1000道测试题。其中人际识别模块创新性地采用YouTube创作者视频帧构建多选问题,确保了数据生态的多样性与现实场景的覆盖度。
特点
该数据集以五大人机交互核心能力域为框架,首次系统整合了非语言线索理解、模糊指令解析等关键维度。其突出特点在于:通过双条件交互实验设计捕捉机器人视角局限性的感知挑战;在社交导航领域引入多色路径覆盖的MuSoHu数据集评估空间推理能力;人际识别模块采用跨视频帧干扰项设计,有效检验模型的细粒度特征辨别力。数据集问题设计均源自真实HRI痛点,如指向性眼神解读、空间左右方位判断等具有显著生态效度的任务。
使用方法
使用HRIBench需通过标准化评估协议,将VQA问题输入待测视觉语言模型(VLM)。每个问题需记录模型响应时间与答案准确性,建议在配备双RTX 3090 GPU的硬件环境下进行开源模型测试以保持延迟指标可比性。对于封闭模型需控制网络环境变量,人际识别域需注意GPT系列模型的多图像输入限制。评估结果应参照论文提供的基线数据,重点分析模型在延迟-准确率权衡曲线上的位置,特别关注500-700毫秒实时性阈值的达标情况。
背景与挑战
背景概述
HRIBench是由南加州大学Thomas Lord计算机科学系的Zhonghao Shi等研究人员于2025年提出的一个面向人机交互(HRI)领域的视觉问答基准数据集。该数据集旨在系统评估视觉语言模型(VLMs)在实时人类感知任务中的性能与延迟权衡问题。数据集涵盖非语言线索理解、语言指令理解、人-机-物关系理解、社交导航和人员识别五大核心领域,每个领域包含200个精心设计的问题,共计1000个样本。HRIBench的建立标志着HRI研究从实验室受控环境向真实场景应用的重要转变,为解决机器人感知系统在开放环境中的泛化能力不足问题提供了标准化评估框架。
当前挑战
HRIBench揭示了当前VLMs在HRI应用中的双重挑战:在领域问题层面,模型难以处理精细的多模态线索理解(如视线追踪)、模糊语言-视觉指令解析以及真实世界的空间物理推理;在构建技术层面,研究者面临真实HRI场景数据采集的复杂性、多领域问题平衡性设计,以及评估指标中性能-延迟权衡的量化难题。特别值得注意的是,所有测试模型均未能达到人类实时交互所需的700毫秒响应阈值,暴露出当前VLMs在延迟优化与感知精度协同提升方面的技术瓶颈。
常用场景
经典使用场景
在人类-机器人交互(HRI)领域,实时感知人类行为是实现高效协作的核心挑战。HRIBench通过构建包含非语言线索理解、语言指令解析、人-机-物关系推理、社交导航及身份识别五大任务的视觉问答基准,为评估视觉-语言模型(VLMs)在复杂动态环境中的感知能力提供了标准化测试平台。其典型应用场景包括服务机器人对用户手势意图的即时响应、家庭环境中模糊指令的多模态解析,以及公共空间内机器人路径规划的社会合规性判断。
解决学术问题
该数据集系统性地解决了VLM在HRI场景中的三大关键学术问题:一是突破了传统专用模型泛化性不足的局限,通过零样本任务设计验证模型跨领域迁移能力;二是首次量化了模型性能与推理延迟的权衡关系,揭示了当前VLMs难以满足实时交互需求(延迟需<0.7秒)的技术瓶颈;三是发现了模型在细粒度多模态理解(如视线追踪)、空间物理推理等基础感知能力的缺陷,为改进模型架构提供了明确方向。
衍生相关工作
该基准已催生多项重要研究:基于性能延迟权衡分析,InternVL团队开发了参数量小于10B的低延迟开源模型;ManipBench借鉴其任务设计方法扩展了机器人操作任务评估;PhysBench则受启发建立了物理世界理解基准。相关成果发表在ICLR、NeurIPS等顶会,推动了轻量化VLM和专用加速算法的研究热潮。
以上内容由遇见数据集搜集并总结生成



