MINT-RVAE

Name: MINT-RVAE
Creator: 卡塔尔哈马德·本·哈利法大学科学与工程学院
Published: 2025-09-27 00:49:40
License: 暂无描述

arXiv2025-09-27 更新2025-11-21 收录

下载链接：

https://github.com/Farida-Ali/MINT-RVAE-Dataset-for-multimodal-intent-prediction-in-human-robot-interaction

下载链接

链接失效反馈

官方服务：

资源简介：

MINT-RVAE数据集是一个用于人类-机器人交互（HRI）意图预测的RGB视频数据集，收集了人类与机器人手臂交互意图的帧级别标注，包括人体姿态坐标和面部情绪向量。数据集包含来自不同室内公共空间环境中的10名参与者的行为，并提供了帧级别的意图标签。该数据集旨在解决现有HRI数据集在序列级别检测和依赖昂贵传感器套装的限制，并通过引入MINT-RVAE方法来缓解训练数据的类不平衡问题。

The MINT-RVAE dataset is an RGB video dataset for human-robot interaction (HRI) intent prediction. It collects frame-level annotations of human interaction intentions with robotic arms, including human pose coordinates and facial emotion vectors. The dataset includes behaviors from 10 participants across different indoor public space environments, and provides frame-level intent labels. This dataset aims to address the limitations of existing HRI datasets, which are restricted to sequence-level detection and rely on costly sensor suites, and mitigates class imbalance in training data by introducing the MINT-RVAE method.

提供机构：

卡塔尔哈马德·本·哈利法大学科学与工程学院

创建时间：

2025-09-27

搜集汇总

数据集介绍

构建方式

在服务机器人广泛部署的背景下，MINT-RVAE数据集通过单目RGB摄像头系统性地采集了人类与机器人交互意图的多模态数据。数据收集过程在三种室内环境中进行，参与者使用无线演示器实时标记交互意图的起始帧，确保了帧级标注的精确性。通过YOLOv8姿态检测模型提取二维人体关键点坐标，结合DeepFace模型分析面部表情概率分布，构建了融合姿态与情感特征的59维特征向量。所有姿态坐标经过边界框归一化和标准化处理，有效消除了场景尺度与平移变异的影响。

使用方法

研究者在应用该数据集时可采用分层交叉验证策略，将单人与多人场景数据分离以评估模型泛化性能。数据集支持帧级与序列级双重评估模式：帧级评估直接利用模型输出的逐帧概率，序列级评估则通过滑动窗口内连续帧的决策聚合实现。针对类别不平衡问题，可借助配套发布的MINT-RVAE生成模型合成时序连贯的多模态序列，通过变分自编码器隐空间采样增强少数类样本。训练过程中建议采用宏F1分数、平衡准确率与AUROC等多维度指标，以适应实际场景中的非均衡分布特性。

背景与挑战

背景概述

MINT-RVAE数据集由哈马德·本·哈立法大学的研究团队于2025年创建，聚焦于人机交互领域中的意图预测问题。该数据集通过单目RGB摄像头捕捉人体姿态与面部情感信息，旨在解决服务机器人在公共空间中对人类交互意图的早期识别需求。其创新性在于提供了帧级精度的标注数据，突破了传统序列级标注的局限，显著提升了机器人响应速度与交互质量，为人机协作研究提供了关键数据支撑。

当前挑战

该数据集面临的核心挑战包括人机交互意图预测中的类别不平衡问题，真实场景中交互事件远少于非交互事件，导致模型训练易偏向多数类。构建过程中需克服多模态数据融合的复杂性，如姿态与情感信息的时序对齐与一致性保持，同时需确保生成式数据增强方法在保持时空连贯性的前提下有效缓解数据分布偏差。此外，仅依赖RGB输入需应对环境光照变化与遮挡干扰，对模型的鲁棒性提出更高要求。

常用场景

经典使用场景

在服务机器人部署场景中，MINT-RVAE数据集通过RGB单目摄像头捕捉人体姿态与面部表情数据，构建了人机交互意图预测的基准测试环境。该数据集特别适用于研究非结构化公共场所中人类接近机器人时的隐式交互信号，为时序行为分析提供了精确到帧级别的标注支持，使得模型能够捕捉意图产生的瞬时动态特征。

解决学术问题

该数据集有效解决了人机交互领域三类核心问题：一是突破了传统多模态传感器依赖，通过纯RGB输入实现了低成本意图检测；二是针对真实场景中交互样本稀缺的类别不平衡问题，提出了基于变分自编码器的数据增强方法；三是首次实现了帧级意图起始点标注，为时序预测模型提供了细粒度监督信号，显著提升了机器人响应时效性与交互流畅度。

实际应用

在智慧医疗导诊、酒店接待机器人等实际场景中，该数据集支撑的系统能通过普通摄像头预判用户交互意图，使机器人在未收到明确指令前即可调整服务状态。这种能力显著缩短了服务响应延迟，在商场导购、图书馆助手等高频人机接触场景中，有效提升了用户体验与系统效能，同时大幅降低了硬件部署成本。

数据集最近研究