popsign-images

Hugging Face2026-02-04 更新2026-02-05 收录

下载链接：

https://huggingface.co/datasets/sign/popsign-images

下载链接

链接失效反馈

官方服务：

资源简介：

PopSign Images 数据集包含从 PopSign 美国手语（ASL）视频片段中提取的帧序列，专为手语识别任务设计。该数据集由孤立的 ASL 手势短片组成，提供预提取的图像帧，适用于训练基于图像或视频的手语识别模型。数据集分为两个子集：游戏环境收集的“game”子集和标准录制环境收集的“non-game”子集。每个子集包含训练、验证和测试三个分割。数据集结构包括文件路径、开始/结束时间、文本标签和图像序列等特征。帧提取采用级联方法，结合姿态启发式检测和自动分割，确保准确的手势边界。所有帧均调整为256x256像素分辨率。数据集适用于视觉问答、手势识别等任务，并遵循 CC BY 4.0 许可协议。

The PopSign Images Dataset comprises frame sequences extracted from PopSign American Sign Language (ASL) video clips, and is specifically developed for sign language recognition tasks. This dataset consists of short clips of isolated ASL gestures, with pre-extracted image frames provided, which are suitable for training image-based or video-based sign language recognition models. The dataset is divided into two subsets: the "game" subset collected from gaming environments, and the "non-game" subset collected from standard recording environments. Each subset includes three data splits: training, validation, and testing. The dataset's structure includes features such as file paths, start/end timestamps, text labels, and image sequences. A cascaded method combining pose heuristic detection and automatic segmentation is employed for frame extraction, ensuring accurate gesture boundaries. All frames are resized to a resolution of 256×256 pixels. This dataset is applicable to tasks including visual question answering and gesture recognition, and is released under the CC BY 4.0 license.

创建时间：

2026-02-04

原始信息汇总

PopSign Images 数据集概述

数据集基本信息

数据集名称: PopSign Images
托管地址: https://huggingface.co/datasets/sign/popsign-images
许可协议: CC BY 4.0
主要任务类别: 视觉问答
涉及语言: 英语 (en)、美国手语 (ase)
相关标签: 手语、ASL、美国手语、手势识别
数据规模: 100K < n < 1M

数据集描述

该数据集包含从 PopSign 美国手语视频片段中提取的帧序列，专为手语识别任务组织。

子集

数据集包含两个子集：

game: 在游戏化数据收集环境中收集的手势。
non-game: 在标准录制环境中收集的手势。

数据划分

每个子集包含三个划分：

train: 训练数据。
validation: 验证数据。
test: 测试数据。

数据结构

数据特征

列名	类型	描述
`file`	字符串	原始视频文件路径。
`start`	float32	手势片段的开始时间（秒）。
`end`	float32	手势片段的结束时间（秒）。
`text`	字符串	手势对应的英文注释/标签。
`images`	列表[图像]	从视频中提取的帧序列，分辨率为256x256。

帧提取

以大约每秒5帧的速率从每个视频片段中提取帧。
开始和结束时间通过级联方法确定：
1. 基于姿态的分割: 使用启发式方法检测手语者的手腕是否高于肘部（表示正在积极打手语）。这比基于模型的分割提供更准确的边界。
2. EAF分割回退: 如果基于姿态的方法表明整个视频都在打手语（手从未休息），则回退到从EAF文件进行的自动手语分割。
3. 完整视频时长: 如果两种方法都未提供边界，则使用整个视频时长。
所有帧均为256x256像素。

使用方法

可通过 datasets 库加载数据集，示例如下： python from datasets import load_dataset game_dataset = load_dataset("sign/popsign-images", "game") non_game_dataset = load_dataset("sign/popsign-images", "non-game")

数据处理流程

视频预处理: 将原始视频裁剪为正方形并缩放到256x256像素。
姿态估计: 应用 MediaPipe 姿态估计。
手势边界检测: 采用级联方法识别手势边界。
帧提取: 从识别出的手势片段中以5 FPS提取帧。

引用

若使用此数据集，请引用原始的 PopSign 数据集： bibtex @inproceedings{Starner2023PopSignAV, title={PopSign ASL v1.0: An Isolated American Sign Language Dataset Collected via Smartphones}, author={Thad Starner and Sean Forbes and Matthew So and David Martin and Rohit Sridhar and Gururaj Deshpande and Sam S. Sepah and Sahir Shahryar and Khushi Bhardwaj and Tyler Kwok and Daksh Sehgal and Saad Hassan and Bill Neubauer and Sofia Anandi Vempala and Alec Tan and Jocelyn Heath and Unnathi Kumar and Priyanka Mosur and Tavenner Hall and Rajandeep Singh and Christopher Cui and Glenn Cameron and Sohier Dane and Garrett Tanzer}, booktitle={Neural Information Processing Systems}, year={2023}, url={https://api.semanticscholar.org/CorpusID:268030720} }

许可证

本数据集根据 CC BY 4.0 许可证发布。

搜集汇总

数据集介绍

构建方式

在计算机视觉与手语识别领域，数据集的构建质量直接影响模型性能。PopSign Images数据集通过系统化的流程构建，其核心在于从原始美国手语视频中提取关键帧序列。视频首先经过预处理，裁剪为正方形并统一缩放至256x256像素分辨率。随后采用级联方法确定手语动作的起止边界：优先基于姿态估计的启发式规则，检测手腕高于肘部的活跃手势区间；若手势持续存在，则回退至自动化的EAF文件分割；最终以完整视频作为备选。帧提取以每秒5帧的速率进行，确保时间维度的连贯性。

特点

该数据集在视觉语言资源中展现出鲜明的结构特性。其包含游戏化环境与标准录制环境两个子集，分别对应不同的数据采集场景，为研究环境因素对手语识别的影响提供了对比基础。数据以图像序列形式组织，每段序列标注了起始时间、结束时间及对应的英文手势标签，支持基于图像或视频的模型训练。所有帧均统一为256x256像素，保障了输入的一致性。数据规模介于十万至百万之间，覆盖了丰富的手势词汇，为大规模模型训练提供了充足样本。

使用方法

为便于研究者高效利用该数据集，其设计遵循了模块化访问原则。通过Hugging Face的datasets库，可直接加载游戏或非游戏子集，每个子集均划分了训练、验证与测试部分。加载后，用户可访问样本中的图像序列、时间戳及标签信息，进而进行模型训练或评估。示例代码展示了如何提取手势时长、帧数并可视化首帧，为后续处理提供了清晰起点。数据以Parquet格式存储，兼顾了读取效率与存储压缩，适合在分布式计算环境中部署。

背景与挑战

背景概述

PopSign Images数据集源于2023年由Thad Starner等研究人员发布的PopSign ASL v1.0项目，旨在推动美国手语（ASL）的孤立词汇识别研究。该数据集通过智能手机采集，包含游戏化与非游戏化两种环境下的手语视频片段，并提取为图像帧序列，为视觉问答与手势识别任务提供了结构化资源。其核心研究问题聚焦于提升手语识别的准确性与鲁棒性，通过大规模标注数据支持深度学习模型训练，对促进无障碍通信技术与人工智能在语言学领域的应用具有显著影响力。

当前挑战

该数据集致力于解决手语识别中孤立词汇分类的挑战，包括应对手势的时空动态性、个体表达差异以及环境干扰等因素。在构建过程中，研究人员面临多重技术难题：首先，手语边界检测需依赖姿态估计启发式方法，通过手腕与肘部相对位置判断活动区间，但复杂手势可能导致误分割；其次，数据预处理涉及视频裁剪、姿态估计与帧提取等多步骤流水线，确保一致性与质量要求较高计算资源；此外，游戏化与非游戏化子集的平衡设计旨在探索数据收集环境对模型泛化能力的影响，这增加了数据标注与验证的复杂性。

常用场景

经典使用场景

在计算机视觉与手语识别领域，PopSign Images数据集为孤立美国手语（ASL）词汇的视觉识别任务提供了标准化基准。该数据集通过预提取的256x256分辨率图像帧序列，支持基于图像或视频的深度学习模型训练，尤其适用于手势动作的时序建模与分类。其经典应用场景包括构建端到端的手语识别系统，研究者利用该数据集训练卷积神经网络（CNN）或三维卷积网络（3D CNN），以从连续帧中捕捉手部姿态与运动模式，实现对手语词汇的精准分类。

实际应用

在实际应用层面，PopSign Images数据集为开发智能手语翻译系统与无障碍交互工具提供了关键数据支撑。基于该数据集训练的模型可集成于移动应用或嵌入式设备，实现实时手语到文本或语音的转换，助力听障人士的日常沟通。此外，该数据在游戏化与非游戏化两种采集环境下的子集，有助于评估模型在不同录制条件下的鲁棒性，为教育辅助、远程手语教学以及虚拟现实中的手势交互等场景提供技术可行性验证。

衍生相关工作

围绕PopSign Images数据集，学术界衍生了一系列经典研究工作，主要集中在手语识别模型的架构优化与跨域适应方面。例如，研究者利用该数据集探索了基于Transformer的时序建模方法，以提升长序列手势的识别精度；同时，针对游戏与非游戏子集的差异，开展了领域自适应算法的实验，以减少采集偏差对模型性能的影响。这些工作不仅丰富了手语识别的技术路线，也为后续大规模连续手语数据集的建设与标注范式提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集