five

HaGrid-500k-Cropped

收藏
Hugging Face2025-12-26 更新2025-12-27 收录
下载链接:
https://huggingface.co/datasets/chernova-al/HaGrid-500k-Cropped
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自HaGRID(手势识别图像数据集)的509,323张图像,分辨率降为384p。原始数据集有552,992张1080p图像,大小为716GB。此样本数据集是为教程创建的,以便读者可以在Google Colab和Kaggle Notebooks的免费层中使用。数据集主要用于目标检测任务,包含19种手势类别,如'call'(呼叫)、'no_gesture'(无手势)、'dislike'(不喜欢)等。注释信息包括边界框(bboxes)、标签(labels)、主导手(leading_hand)、主导手置信度(leading_conf)和用户ID(user_id)。边界框的坐标和尺寸需要根据图像的宽度和高度进行缩放。
创建时间:
2025-12-21
原始信息汇总

HaGrid-500k-Cropped 数据集概述

数据集基本信息

  • 数据集名称: HaGrid Sample 500k 384p
  • 许可证: CC BY-SA 4.0
  • 任务类别: 目标检测
  • 主要语言: 英语
  • 数据规模: 100K < n < 1M
  • 图像数量: 509,323 张

数据集来源与背景

  • 本数据集源自 HaGRID 数据集,是原数据集的一个下采样版本。
  • 创建目的:为教程提供示例,以便读者能在 Google Colab 和 Kaggle Notebooks 的免费层级中使用。
  • 原始数据集信息:
    • 原始大小:716GB
    • 原始图像数量:552,992 张
    • 原始分辨率:1080p
  • 本数据集处理:图像已下采样至 384p 分辨率。

原始作者

  • Alexander Kapitanov
  • Andrey Makhlyarchuk
  • Karina Kvanchiani

原始数据集链接

  • GitHub: https://github.com/hukenovs/hagrid
  • Kaggle: https://www.kaggle.com/datasets/kapitanov/hagrid

目标类别

数据集包含以下 19 个手势类别: call, no_gesture, dislike, fist, four, like, mute, ok, one, palm, peace, peace_inverted, rock, stop, stop_inverted, three, three2, two_up, two_up_inverted

标注信息

  • 标注格式:边界框标注
  • 边界框表示[top-left-X-position, top-left-Y-position, width, height]
  • 坐标处理top-left-X-positionwidth 值需乘以图像宽度;top-left-Y-positionheight 值需乘以图像高度以获取绝对像素坐标。

标注示例

以图像 ID 00005c9c-3548-4a8f-9d0b-2dd4aff37fc9 为例,其标注包含以下字段:

  • bboxes: [[0.23925175, 0.28595301, 0.25055143, 0.20777627]]
  • labels: [call]
  • leading_hand: right
  • leading_conf: 1
  • user_id: 5a389ffe1bed6660a59f4586c7d8fe2770785e5bf79b09334aa951f6f119c024
搜集汇总
数据集介绍
main_image_url
构建方式
在计算机视觉领域,手势识别数据集对于推动人机交互技术的发展至关重要。HaGrid-500k-Cropped数据集源自HaGRID原始数据集,原始数据包含552,992张1080p分辨率图像,总容量达716GB。为便于研究者在免费计算资源环境中使用,本数据集通过下采样技术将图像分辨率统一调整为384p,并从中选取了509,323张图像构成精简版本,既保留了手势识别的核心信息,又显著降低了存储与计算负担。
特点
该数据集专注于手势识别任务,涵盖19类手势类别,包括常见动作如‘call’、‘like’、‘ok’等,以及‘no_gesture’类别以区分无手势场景。每张图像均提供边界框标注,格式为归一化的[左上角X坐标, 左上角Y坐标, 宽度, 高度],并附有手势标签、主导手信息及用户标识。数据规模适中,介于10万至100万样本之间,适用于目标检测模型的训练与评估,且图像经过裁剪处理,平衡了细节保留与计算效率。
使用方法
使用本数据集时,研究者可将其应用于手势识别模型的开发与验证。首先需将归一化边界框坐标乘以图像宽度与高度以转换为像素坐标。数据集支持直接加载至Google Colab或Kaggle Notebooks等免费平台进行实验,便于快速原型设计。用户可依据标注中的‘labels’与‘bboxes’字段训练目标检测网络,同时利用‘leading_hand’等元数据深入分析手势特征,推动人机交互系统的优化与创新。
背景与挑战
背景概述
手势识别作为人机交互领域的关键技术,其发展依赖于高质量、大规模标注数据集的支撑。HaGrid-500k-Cropped数据集源自HaGRID(HAnd Gesture Recognition Image Dataset),由Alexander Kapitanov、Andrey Makhlyarchuk和Karina Kvanchiani等研究人员于2023年构建,旨在解决手势识别任务中数据稀缺与多样性不足的核心问题。该数据集聚焦于18类常见手势的检测与分类,通过精心设计的采集流程,涵盖了丰富的手势姿态、光照条件及背景环境,显著提升了手势识别模型的泛化能力与鲁棒性,对推动自然交互系统、智能驾驶及辅助技术等应用具有重要影响力。
当前挑战
手势识别领域长期面临手势类内差异大、类间相似度高以及环境干扰等挑战,HaGrid-500k-Cropped数据集通过提供大规模标注数据,旨在缓解模型在复杂场景下的识别精度不足问题。在构建过程中,研究人员需克服数据采集的多样性平衡难题,确保手势样本在姿态、肤色、光照及遮挡条件下的代表性;同时,标注工作涉及手势边界框的精确标定与类别一致性维护,这对标注质量与效率提出了较高要求。此外,原始数据规模庞大,为适配轻量级计算环境,数据降采样与裁剪处理亦需在信息保留与计算负担之间寻求平衡。
常用场景
经典使用场景
在计算机视觉领域,手势识别作为人机交互的关键技术,对数据集的规模与多样性提出了较高要求。HaGrid-500k-Cropped数据集以其超过50万张标注图像,涵盖了18种手势类别,成为手势检测与识别模型训练与评估的经典资源。该数据集广泛应用于手势检测算法的基准测试,研究者通过其丰富的标注信息,能够系统性地评估模型在复杂背景、光照变化及手势多样性下的性能表现,为手势识别技术的进步提供了坚实的数据支撑。
衍生相关工作
围绕HaGrid-500k-Cropped数据集,衍生出多项经典研究工作,包括基于深度学习的手势检测模型优化、多手势类别识别算法改进及实时手势交互系统开发。这些工作不仅提升了手势识别的精度与速度,还探索了数据增强、迁移学习及轻量化模型设计等方向,进一步拓展了手势识别技术在移动端、边缘计算及跨平台应用中的可能性,形成了丰富的研究生态。
数据集最近研究
最新研究方向
在计算机视觉与手势识别领域,HaGrid-500k-Cropped数据集凭借其大规模、高标注质量的特性,正推动着前沿研究的深入发展。当前研究焦点集中于多模态交互场景下的实时手势检测与理解,特别是在增强现实(AR)与虚拟现实(VR)应用中,如何利用该数据集优化轻量级目标检测模型,以实现低延迟、高精度的手势识别。同时,结合深度学习中的自监督学习与域适应技术,研究者致力于提升模型在复杂光照、遮挡及跨用户场景下的鲁棒性,以应对实际部署中的挑战。该数据集的热点应用亦延伸至人机交互、智能驾驶及无障碍技术,其开源特性促进了学术与工业界的广泛协作,对推动自然交互系统的实用化具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作