cj-mills/hagrid-sample-30k-384p

Name: cj-mills/hagrid-sample-30k-384p
Creator: cj-mills
Published: 2023-07-02 21:31:24
License: 暂无描述

Hugging Face2023-07-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/cj-mills/hagrid-sample-30k-384p

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-sa-4.0 task_categories: - object-detection language: - en pretty_name: HaGRID Sample 30k 384p size_categories: - 10K<n<100K --- This dataset contains 31,833 images from [HaGRID](https://github.com/hukenovs/hagrid) (HAnd Gesture Recognition Image Dataset) downscaled to 384p. The original dataset is 716GB and contains 552,992 1080p images. I created this sample for a tutorial so readers can use the dataset in the free tiers of Google Colab and Kaggle Notebooks. ### Original Authors: * [Alexander Kapitanov](https://www.linkedin.com/in/hukenovs) * [Andrey Makhlyarchuk](https://www.linkedin.com/in/makhliarchuk) * [Karina Kvanchiani](https://www.linkedin.com/in/kvanchiani) ### Original Dataset Links * [GitHub](https://github.com/hukenovs/hagrid) * [Kaggle Datasets Page](https://www.kaggle.com/datasets/kapitanov/hagrid) ### Object Classes ```text ['call', 'no_gesture', 'dislike', 'fist', 'four', 'like', 'mute', 'ok', 'one', 'palm', 'peace', 'peace_inverted', 'rock', 'stop', 'stop_inverted', 'three', 'three2', 'two_up', 'two_up_inverted'] ``` ### Annotations * `bboxes`: `[top-left-X-position, top-left-Y-position, width, height]` * Multiply `top-left-X-position` and `width` values by the image width and multiply `top-left-Y-position` and `height` values by the image height. <div style="overflow-x: auto; overflow-y: auto"> <table> <thead> <tr style="text-align: right"> <th></th> <th>00005c9c-3548-4a8f-9d0b-2dd4aff37fc9</th> </tr> </thead> <tbody> <tr> <th>bboxes</th> <td>[[0.23925175, 0.28595301, 0.25055143, 0.20777627]]</td> </tr> <tr> <th>labels</th> <td>[call]</td> </tr> <tr> <th>leading_hand</th> <td>right</td> </tr> <tr> <th>leading_conf</th> <td>1</td> </tr> <tr> <th>user_id</th> <td>5a389ffe1bed6660a59f4586c7d8fe2770785e5bf79b09334aa951f6f119c024</td> </tr> </tbody> </table> </div>

许可证：知识共享署名-相同方式共享4.0（CC BY-SA 4.0）任务类别：目标检测（object-detection）语言：英语（en）数据集名称：HaGRID Sample 30k 384p 样本量范围：10000 < 样本量 < 100000 --- 本数据集包含源自手部手势识别图像数据集（HaGRID，HAnd Gesture Recognition Image Dataset）的31833张图像，所有图像均被缩放至384p分辨率。原始数据集体量达716GB，收录552992张1080p分辨率图像。本精简样本专为教程制作，旨在让读者可在Google Colab与Kaggle Notebooks的免费配额中使用该数据集。 ### 原作者 * [Alexander Kapitanov](https://www.linkedin.com/in/hukenovs) * [Andrey Makhlyarchuk](https://www.linkedin.com/in/makhliarchuk) * [Karina Kvanchiani](https://www.linkedin.com/in/kvanchiani) ### 原始数据集链接 * [GitHub](https://github.com/hukenovs/hagrid) * [Kaggle 数据集页面](https://www.kaggle.com/datasets/kapitanov/hagrid) ### 目标类别 text ['call（打招呼手势）', 'no_gesture（无手势）', 'dislike（厌恶手势）', 'fist（握拳手势）', 'four（四指手势）', 'like（点赞手势）', 'mute（静音手势）', 'ok（OK手势）', 'one（单指手势）', 'palm（手掌手势）', 'peace（和平手势/剪刀手）', 'peace_inverted（反向和平手势）', 'rock（摇滚手势）', 'stop（停止手势）', 'stop_inverted（反向停止手势）', 'three（三指手势）', 'three2（变体三指手势）', 'two_up（双指上扬手势）', 'two_up_inverted（反向双指上扬手势）'] ### 标注信息 * 边界框（bboxes）：标注格式为`[左上角X坐标, 左上角Y坐标, 宽度, 高度]` * 需将左上角X坐标与宽度值乘以图像宽度，将左上角Y坐标与高度值乘以图像高度，即可转换为实际像素坐标。 <div style="overflow-x: auto; overflow-y: auto"> <table> <thead> <tr style="text-align: right"> <th></th> <th>00005c9c-3548-4a8f-9d0b-2dd4aff37fc9（图像ID）</th> </tr> </thead> <tbody> <tr> <th>边界框（bboxes）</th> <td>[[0.23925175, 0.28595301, 0.25055143, 0.20777627]]</td> </tr> <tr> <th>标签（labels）</th> <td>[call（打招呼手势）]</td> </tr> <tr> <th>主导手</th> <td>右手</td> </tr> <tr> <th>置信度</th> <td>1</td> </tr> <tr> <th>用户ID</th> <td>5a389ffe1bed6660a59f4586c7d8fe2770785e5bf79b09334aa951f6f119c024</td> </tr> </tbody> </table> </div>

提供机构：

cj-mills

原始信息汇总

数据集概述

名称: HaGRID Sample 30k 384p
许可证: cc-by-sa-4.0
任务类别: 对象检测
语言: 英语
大小类别: 10K<n<100K

数据集内容

图像数量: 31,833
图像分辨率: 384p
原始数据集大小: 716GB，包含552,992张1080p图像

对象类别

text [call, no_gesture, dislike, fist, four, like, mute, ok, one, palm, peace, peace_inverted, rock, stop, stop_inverted, three, three2, two_up, two_up_inverted]

注释格式

边界框格式: [top-left-X-position, top-left-Y-position, width, height]
坐标调整: 将top-left-X-position和width值乘以图像宽度，将top-left-Y-position和height值乘以图像高度。

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，手势识别数据集对于模型训练至关重要。HaGRID样本数据集源自大规模手势识别图像数据集HaGRID，原始数据包含超过55万张1080p分辨率图像，总容量达716GB。为便于在免费计算资源环境中使用，本数据集通过降采样技术将图像分辨率统一调整为384p，并从中精选出31,833张代表性图像，构建了这个轻量化样本集。该过程既保留了原始数据的手势类别分布特征，又显著降低了存储与计算需求。

特点

该数据集聚焦于手势识别任务，涵盖19类常见手势动作，包括呼叫、点赞、握拳等多样化交互姿态。每张图像均标注了标准化边界框坐标，采用归一化格式存储，需根据图像尺寸进行还原计算。数据标注不仅包含手势类别与位置信息，还额外提供了主导手信息及置信度评分，为多维度手势分析提供了结构化基础。图像内容呈现真实场景下的手势变化，具有较高的实用价值与研究潜力。

使用方法

研究人员可利用该数据集进行手势检测模型的训练与验证。使用前需将归一化边界框坐标转换为像素坐标，即横坐标参数需乘以图像宽度，纵坐标参数需乘以图像高度。数据集采用标准目标检测数据格式，可直接适配主流深度学习框架。建议在模型开发初期使用本样本集进行原型验证，再根据需要扩展到完整数据集。数据已针对云端协作平台优化，支持在Kaggle和Google Colab免费环境中直接加载使用。

背景与挑战

背景概述

手势识别作为人机交互领域的关键技术，其发展依赖于高质量、大规模标注数据集的支撑。HaGRID数据集由Alexander Kapitanov、Andrey Makhlyarchuk及Karina Kvanchiani等研究人员于2022年构建，旨在解决动态手势检测与分类中的复杂场景适应性问题。该数据集聚焦于18类常见手势，涵盖如‘呼叫’、‘点赞’、‘握拳’等交互动作，通过精细的边界框标注及主导手信息，为手势识别模型提供了丰富的训练资源。其大规模、多样化的图像采集策略，显著推动了手势识别在自动驾驶、智能家居及无障碍技术等领域的应用进展。

当前挑战

手势识别领域面临的核心挑战在于复杂背景干扰、光照变化及手势类间相似性导致的识别精度下降。HaGRID数据集构建过程中，需克服大规模数据采集的标注一致性难题，确保数千名参与者手势动作的时空对齐与标注标准化。此外，数据降采样版本如‘cj-mills/hagrid-sample-30k-384p’虽提升了计算可访问性，但可能损失高分辨率细节，影响模型对细微手势特征的捕捉能力，进而制约其在实时交互场景中的鲁棒性表现。

常用场景

经典使用场景

在计算机视觉领域，手势识别作为人机交互的核心技术，其研究依赖于高质量标注数据集的支持。HaGRID样本数据集通过提供包含18种手势类别的图像，为手势检测与识别模型的训练与评估奠定了坚实基础。该数据集最经典的使用场景在于手势识别算法的开发与优化，研究人员利用其丰富的标注信息，包括边界框和手势类别，训练深度神经网络以实现精准的手势定位与分类。

衍生相关工作

HaGRID样本数据集作为手势识别领域的重要资源，已衍生出多项经典研究工作。例如，基于该数据集的改进型YOLO算法实现了实时手势检测，Transformer架构的手势分类模型在精度上取得显著提升。此外，数据集还被用于跨域手势识别、多模态融合交互等前沿探索，推动了手势识别与自然语言处理、强化学习等领域的交叉融合。

数据集最近研究