OMG-Bench

Name: OMG-Bench
Creator: 中山大学, 北京邮电大学, 上海交通大学, 南开大学, 军事科学院, 天津人工智能创新中心
Published: 2025-12-19 00:27:31
License: 暂无描述

arXiv2025-12-19 更新2025-12-20 收录

下载链接：

https://omg-bench.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

OMG-Bench是由中山大学、北京邮电大学等机构联合推出的首个基于骨架的大规模在线微手势识别数据集。该数据集通过多视角自监督采集系统和半自动标注流程构建，包含40个细粒度手势类别，覆盖13,948个手势实例和1,272个序列，平均手势时长为0.57秒。数据采集采用五摄像头RGB-D系统，以30FPS记录手部骨架运动，并通过专家验证确保标注质量。该数据集旨在解决VR/AR交互中微手势识别面临的挑战，如细微动作差异识别、快速动态特征捕捉等，为在线微手势识别算法提供了重要的基准平台。

OMG-Bench is the first large-scale online micro-gesture recognition dataset based on skeleton, jointly launched by Sun Yat-sen University, Beijing University of Posts and Telecommunications and other institutions. Constructed via a multi-view self-supervised data acquisition system and a semi-automatic annotation pipeline, this dataset includes 40 fine-grained gesture categories, covering 13,948 gesture instances and 1,272 sequences, with an average gesture duration of 0.57 seconds. The data collection adopts a five-camera RGB-D system, which records hand skeleton motion at 30 FPS, and the annotation quality is ensured by expert verification. This dataset aims to address the challenges faced by micro-gesture recognition in VR/AR interactions, such as recognition of subtle motion differences and capture of fast dynamic features, providing an important benchmark platform for online micro-gesture recognition algorithms.

提供机构：

中山大学, 北京邮电大学, 上海交通大学, 南开大学, 军事科学院, 天津人工智能创新中心

创建时间：

2025-12-19

原始信息汇总

OMG-Bench数据集概述

数据集基本信息

数据集名称：OMG-Bench
主要任务：基于手部骨架的在线微手势识别
应用领域：VR/AR交互
状态：数据集即将发布（Coming soon）

数据集规模与内容

手势类别：40个细粒度手势类别
实例数量：13,948个实例
序列数量：1,272个序列
数据特性：包含细微动作、快速动态和连续执行的手势

数据采集与标注

采集系统：使用校准的五摄像头RGB-D系统
骨架获取：通过自监督多视角手部姿态估计获得高质量骨架
标注方式：半自动帧级手势标注，结合启发式规则和专家细化

基准评估

基准方法：提出了Hierarchical Memory-Augmented Transformer (HMATr)框架
性能表现：HMATr在检测率上优于现有最先进方法7.6%
评估指标：使用四种指标进行基准测试

数据集特点

首个大规模公开基准：专注于基于骨架的在线微手势识别
挑战性：手势具有细微运动模式，对数据质量和标注精度要求高
比较优势：在现有开源基于骨架的手势识别数据集中具有独特性和规模优势

搜集汇总

数据集介绍

构建方式

在虚拟现实与增强现实交互领域，手势识别技术依赖于高质量骨骼数据，而现有数据集在规模与精度上存在局限。OMG-Bench通过构建多视角同步采集系统，采用五台Intel RealSense D415i相机以1280×720分辨率及30帧率捕获RGB-D视频流，并利用自监督多视角手部姿态估计算法自动生成21关节手部骨骼数据，其平均关节位置误差仅为2.78毫米。数据标注采用半自动流程，结合启发式规则初步生成帧级标注，再由专家志愿者进行人工校验与精细化修正，确保了13948个手势实例在1272个序列中的标注准确性。

特点

OMG-Bench作为首个面向骨骼在线微手势识别的大规模公开基准，其核心特点体现在细粒度与动态复杂性上。数据集涵盖40类精细手势，均基于拇指与其他手指间的交互动作定义，包括点击、双击、滑动及捏合等类型，并在手指、交互部位与接触区域三个维度上形成细微差异，导致类间特征分布高度重叠。手势平均持续时间仅0.57秒，间隔短至0.22秒，且相同类别手势连续执行比例高达27.60%，这些快速、连续与微幅的运动特性大幅增加了实时识别的难度。数据集的归一化关节平均位移仅为8.95，进一步凸显了其微动作的本质，为算法在真实交互场景中的鲁棒性评估提供了严峻挑战。

使用方法

OMG-Bench适用于在线微手势识别算法的训练与评估，其使用需遵循流式数据处理框架。数据集已按跨被试协议划分为训练集与测试集，分别包含12名与6名被试的序列。研究者可采用非重叠滑动窗口策略，以16帧为窗口单位逐段输入骨骼序列，并利用帧级类别标注进行端到端模型优化。为应对微手势的短暂性与连续性，建议引入层次化记忆机制以融合历史窗口的上下文信息，或采用可学习的位置感知查询来统一手势检测与分类任务。评估时需综合检测率、误报率、杰卡德指数与归一化编辑距离等多类指标，以全面衡量算法在快速动态与细微差异下的性能表现。

背景与挑战

背景概述

随着虚拟现实与增强现实技术的蓬勃发展，自然直观的手势交互成为提升用户体验的关键。传统的大幅度手势易导致用户肌肉疲劳，而基于手部骨骼的微手势因其动作幅度小、执行自然，成为降低交互负担的理想选择。然而，该领域长期缺乏公开的大规模骨骼微手势数据集，严重制约了相关算法的研发与评估。为填补这一空白，来自中山大学、北京邮电大学、上海交通大学等机构的研究团队于2025年共同发布了OMG-Bench数据集。作为首个面向骨骼在线微手势识别的大规模公开基准，它旨在解决现有数据集在规模、质量和动态连续性方面的局限，为VR/AR领域的自然交互研究提供了至关重要的数据基础。

当前挑战

OMG-Bench数据集所针对的在线微手势识别任务本身面临多重挑战。首先，微手势类别间差异极其细微，例如拇指与不同指尖的点击动作，导致骨骼特征分布高度重叠，易引发混淆。其次，微手势持续时间短、动作幅度小且执行迅速，使得有效特征信息稀疏，实时识别难度陡增。再者，不同手势及同一手势的不同执行实例在时长上存在显著差异，且连续执行导致手势边界模糊，为精准检测与分割带来困难。在数据集构建层面，挑战同样严峻：获取高精度、多视角的手部骨骼数据需要复杂的校准与融合流程；而微手势快速、连续的特性使得人工进行逐帧标注成本极高且易出错，为此研究团队不得不设计一套结合启发式规则与专家校验的半自动标注流程，以在保证标注质量的同时提升效率。

常用场景

经典使用场景

在虚拟现实与增强现实交互领域，手势识别是实现自然、沉浸式人机交互的核心技术。OMG-Bench作为首个面向骨骼数据的在线微手势识别基准数据集，其最经典的使用场景是评估和推动在线微手势识别算法的发展。该数据集通过多视角采集系统获取高质量手部骨骼序列，并包含40类精细定义的微手势，如点击、滑动、捏合等，这些手势具有动作幅度小、执行快速、连续性强等特点。研究者利用OMG-Bench可以系统性地测试算法在实时流式数据下对细微、连续手势的检测与分类能力，特别是在处理手势边界模糊、类间差异微小等挑战时的性能。

衍生相关工作

围绕OMG-Bench数据集，研究者已经开展了一系列相关工作，其中最具代表性的是与其同期提出的Hierarchical Memory-Augmented Transformer（HMATr）框架。HMATr作为一种端到端的基线模型，引入了分层记忆机制来建模跨窗口的上下文信息，并利用可学习的位置感知查询来统一手势检测与分类。该工作显著提升了在线微手势识别的性能，为后续研究设立了强有力的基准。此外，OMG-Bench的发布也必然催生更多针对微手势识别的新方法，特别是在处理时序建模、特征解耦、小样本学习以及跨模态融合等方面。这些衍生工作将共同推动骨骼在线手势识别这一子领域向更高效、更鲁棒的方向演进。

数据集最近研究