five

HaGRID (HAnd Gesture Recognition Image Dataset)

收藏
arXiv2024-01-18 更新2024-06-21 收录
下载链接:
https://github.com/hukenovs/hagrid
下载链接
链接失效反馈
官方服务:
资源简介:
HaGRID是由俄罗斯的SaluteDevices创建的一个大规模手势识别图像数据集,包含554,800张图像,用于构建手势识别系统,特别关注与设备交互以管理它们。数据集中的18种选定手势具有符号功能,可解释为特定动作。尽管手势是静态的,但它们被特别挑选出来,以便能够设计几种动态手势。该数据集通过利用众包平台收集,涵盖了从0.5到4米不等的相机到主体距离,以及各种自然光照条件。HaGRID不仅适用于静态手势识别,如“喜欢”和“停止”,还适用于“滑动”和“拖放”等动态手势。数据集的应用领域包括家庭自动化设备和视频会议服务,旨在通过直观和简单的手势提高用户体验和加速过程。

HaGRID is a large-scale gesture recognition image dataset developed by SaluteDevices, a Russian company, containing 554,800 images. It is designed for building gesture recognition systems, with a special focus on device interaction for device management. The 18 selected gestures in the dataset have symbolic functions that can be interpreted as specific actions. Although these gestures are static, they are specifically chosen to enable the development of several dynamic gestures. This dataset was collected through crowdsourcing platforms, covering camera-to-subject distances ranging from 0.5 to 4 meters and various natural lighting conditions. HaGRID supports not only static gesture recognition tasks such as "like" and "stop", but also dynamic gesture recognition scenarios like "swipe" and "drag-and-drop". Its application fields include home automation devices and video conferencing services, aiming to improve user experience and accelerate workflows via intuitive and straightforward gestures.
提供机构:
SaluteDevices, 俄罗斯
创建时间:
2022-06-16
搜集汇总
数据集介绍
main_image_url
构建方式
HaGRID数据集的构建依托众包平台,通过四个阶段实现:采集阶段由众包工作者在0.5至4米距离内拍摄特定手势图像,并确保手部完整入镜;验证阶段通过动态重叠机制(3至5人)筛选出约70%的正确图像;过滤阶段由5名工作者剔除包含儿童、裸露或文字的不当内容,保留率超85%;标注阶段由双平台众包工作者绘制手势及无手势手的边界框,标注重叠量动态设为3至5,最终通过硬聚合与软聚合算法整合6至10组标注,约5%未聚合图像被排除。
特点
该数据集囊括554,800张以FullHD为主的高分辨率RGB图像,涵盖18种直观手势及一个“无手势”类别,每类样本超30,000张。其核心优势在于极致的异质性:由37,583名来自116个国家的受试者在至少同等数量的室内场景中采集,年龄跨度18至65岁且性别均衡;距离、光照条件(含极端逆光)及拍摄设备(手机、电脑、平板)均呈现广泛分布。边界框标注采用COCO格式,支持手势检测与分类双重任务,且额外包含108,056张带有“无手势”框的样本以降低误检。
使用方法
数据集按受试者划分为训练集(74%)、验证集(10%)与测试集(16%),并提供匿名用户ID哈希以支持自定义划分。用户可直接利用全帧图像训练手势分类器(如ResNet、MobileNet)或检测器(如YoloV7),或借助边界框裁剪手部区域简化分类任务。此外,可通过MediaPipe自动生成关键点标注用于预训练,并结合静态手势序列构建动态手势(如将“停止”与反转“停止”组合实现“右滑”)。官方提供轻量版(每类100样本)及降采样版(最大边长512像素,26GB)便于快速预览与资源受限场景。
背景与挑战
背景概述
手部姿态识别作为人机交互领域的关键技术,近年来在智能家居、车载系统及视频会议等场景中展现出广阔的应用前景。然而,现有数据集普遍存在样本多样性不足、场景单一化等问题,限制了模型在实际环境中的泛化能力。为此,SaluteDevices团队于2023年发布了HaGRID(HAnd Gesture Recognition Image Dataset),由Alexander Kapitanov、Karina Kvanchiani等研究人员主导构建。该数据集以构建面向设备控制的实时手势识别系统为核心目标,包含超过55万张全高清RGB图像,覆盖18种具有符号学功能的静态手势及一个'无手势'类别。通过众包平台招募37,583名不同年龄、性别和国籍的受试者,在至少同等数量的独立场景中采集数据,拍摄距离涵盖0.5至4米,光照条件涵盖自然光与人工光。该数据集在规模、多样性和标注质量上显著超越同类数据集,为手势检测与分类任务提供了强有力的基准,并已公开供学术研究使用。
当前挑战
HaGRID所面临的挑战主要体现在两个层面。在领域问题层面,现有静态手势数据集(如LaRED、OUHANDS、HANDS和SHAPE)普遍存在上下文同质性高、受试者数量有限、样本量不足等问题,导致模型在真实场景中难以应对光照变化、拍摄距离波动及多目标干扰。HaGRID需解决的核心挑战是构建一个在复杂环境下仍能保持高鲁棒性的手势识别系统,尤其需支持动态手势(如滑动、拖拽)的扩展识别。在构建过程层面,数据集创建面临多重技术难点:通过众包平台采集需确保图像质量与标注一致性,为此设计了包含采集、验证、过滤和标注的四阶段流水线;标注阶段需处理6至10个标注者的结果聚合,采用硬聚合与软聚合算法以提升置信度;同时需规避儿童图像、裸露内容等伦理问题,并利用图像哈希去重。此外,为支持手部检测任务,需对每张图像中最多两只手进行边界框标注,其中非手势手需标注为'无手势'类别,这对标注精度和一致性提出了极高要求。
常用场景
经典使用场景
在人机交互领域,手势识别技术正逐步成为连接用户与智能设备的自然桥梁。HaGRID数据集以其超过55万张高分辨率RGB图像和18类直观手势标签,为构建鲁棒的静态手势识别系统提供了坚实的数据基础。该数据集最经典的使用场景在于训练端到端的手势分类与检测模型,研究者可借助其丰富的标注信息(包含边界框与手势类别)完成全帧图像中的手势定位与识别任务。无论是轻量级网络如MobileNetV3,还是深层架构如ResNeXt,HaGRID均能支撑从零开始的模型训练,并取得高精度性能,从而推动手势控制技术在智能家居、视频会议等实时交互环境中的落地。
解决学术问题
HaGRID数据集有效解决了现有手势数据集中在场景同质化、受试者数量有限以及光照与距离变化不足等关键问题,这些缺陷曾严重制约模型的泛化能力。通过引入众包采集策略,该数据集汇集了来自37,583名受试者在至少同等数量独特场景下的手势样本,覆盖从0.5米到4米的拍摄距离以及多种自然光照条件。学术研究中,HaGRID使得研究者能够系统评估数据多样性(如受试者数量、光照异质性、距离变化)对模型性能的影响,并通过消融实验证实了这些特征对于训练鲁棒性模型的重要性。此外,该数据集还验证了其作为预训练来源的潜力,在迁移学习至其他手势数据集(如OUHANDS)时显著提升识别准确率,从而为手势识别领域的可重复性研究与公平对比树立了新标杆。
衍生相关工作
HaGRID数据集的发布催生了一系列重要的后续研究工作。在模型层面,研究者基于该数据集训练了多种轻量化与高精度网络,如MobileNetV3、ResNeXt及YoloV7 tiny,并在手势分类与检测任务上取得了领先性能,这些预训练模型的开源为社区提供了可直接复用的基准。在方法层面,该数据集推动了动态手势识别技术的创新,通过构建基于队列的时序验证机制,将静态手势序列转化为滑动、拖拽等动态指令,相关演示代码已公开共享。此外,HaGRID还被用作预训练源,通过微调迁移至其他手势识别数据集(如OUHANDS),验证了其作为通用手势特征学习基础的有效性,进一步拓展了其在跨数据集泛化与领域自适应研究中的影响力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作