popsign-images
收藏PopSign Images 数据集概述
数据集基本信息
- 数据集名称: PopSign Images
- 托管地址: https://huggingface.co/datasets/sign/popsign-images
- 许可协议: CC BY 4.0
- 主要任务类别: 视觉问答
- 涉及语言: 英语 (en)、美国手语 (ase)
- 相关标签: 手语、ASL、美国手语、手势识别
- 数据规模: 100K < n < 1M
数据集描述
该数据集包含从 PopSign 美国手语视频片段中提取的帧序列,专为手语识别任务组织。
子集
数据集包含两个子集:
- game: 在游戏化数据收集环境中收集的手势。
- non-game: 在标准录制环境中收集的手势。
数据划分
每个子集包含三个划分:
- train: 训练数据。
- validation: 验证数据。
- test: 测试数据。
数据结构
数据特征
| 列名 | 类型 | 描述 |
|---|---|---|
file |
字符串 | 原始视频文件路径。 |
start |
float32 | 手势片段的开始时间(秒)。 |
end |
float32 | 手势片段的结束时间(秒)。 |
text |
字符串 | 手势对应的英文注释/标签。 |
images |
列表[图像] | 从视频中提取的帧序列,分辨率为256x256。 |
帧提取
- 以大约每秒5帧的速率从每个视频片段中提取帧。
- 开始和结束时间通过级联方法确定:
- 基于姿态的分割: 使用启发式方法检测手语者的手腕是否高于肘部(表示正在积极打手语)。这比基于模型的分割提供更准确的边界。
- EAF分割回退: 如果基于姿态的方法表明整个视频都在打手语(手从未休息),则回退到从EAF文件进行的自动手语分割。
- 完整视频时长: 如果两种方法都未提供边界,则使用整个视频时长。
- 所有帧均为256x256像素。
使用方法
可通过 datasets 库加载数据集,示例如下:
python
from datasets import load_dataset
game_dataset = load_dataset("sign/popsign-images", "game")
non_game_dataset = load_dataset("sign/popsign-images", "non-game")
数据处理流程
- 视频预处理: 将原始视频裁剪为正方形并缩放到256x256像素。
- 姿态估计: 应用 MediaPipe 姿态估计。
- 手势边界检测: 采用级联方法识别手势边界。
- 帧提取: 从识别出的手势片段中以5 FPS提取帧。
引用
若使用此数据集,请引用原始的 PopSign 数据集: bibtex @inproceedings{Starner2023PopSignAV, title={PopSign ASL v1.0: An Isolated American Sign Language Dataset Collected via Smartphones}, author={Thad Starner and Sean Forbes and Matthew So and David Martin and Rohit Sridhar and Gururaj Deshpande and Sam S. Sepah and Sahir Shahryar and Khushi Bhardwaj and Tyler Kwok and Daksh Sehgal and Saad Hassan and Bill Neubauer and Sofia Anandi Vempala and Alec Tan and Jocelyn Heath and Unnathi Kumar and Priyanka Mosur and Tavenner Hall and Rajandeep Singh and Christopher Cui and Glenn Cameron and Sohier Dane and Garrett Tanzer}, booktitle={Neural Information Processing Systems}, year={2023}, url={https://api.semanticscholar.org/CorpusID:268030720} }
许可证
本数据集根据 CC BY 4.0 许可证发布。




