openasl-dwpose
收藏Hugging Face2025-04-19 更新2025-04-20 收录
下载链接:
https://huggingface.co/datasets/PladsElsker/openasl-dwpose
下载链接
链接失效反馈官方服务:
资源简介:
这是一个正在构建中的派生数据集,名为OpenASL DWPose。它基于OpenASL数据集,但包含的是通过DWPose预测得到的姿势关键点数据,而不是原始的RGB视频。数据集的每个样本都是作为一个pickle文件存储的,并且所有的关键点都是使用原始视频的全分辨率生成的,以最大化准确性。
创建时间:
2025-04-13
原始信息汇总
OpenASL DWPose 数据集概述
基本信息
- 许可证: CC-BY-NC-SA 4.0
- 任务类别: 翻译
- 语言: 英语 (en)、美国手语 (asl)
- 数据集名称: OpenASL DWPose
数据集状态
- 当前状态: 构建中(预计几天内完成)
数据集内容
- 来源: 基于 OpenASL 数据集 的衍生版本
- 数据类型: 姿态估计数据(替代原始 RGB 视频)
- 姿态估计方法: 使用 DWPose 预测姿态关键点
- 数据存储格式: 每个样本存储为 pickle 文件
- 关键点生成: 使用原始视频的全分辨率以确保最大精度
数据字段说明
| 字段名称 | 数据类型 | 描述 |
|---|---|---|
| poses | list | 由 DWPose 从视频帧推断的姿态数据 |
| video_frames_per_second | float | 视频的帧率 |
| video_duration | float | 视频持续时间(秒) |
| video_frame_count | int | 视频帧数 |
| video_width | int | 视频宽度 |
| video_height | int | 视频高度 |
| file_stem | str | 文件名主干(不含扩展名) |
| raw_text | str | 原始文本描述 |
| tokenized_text | str | 原始文本的标记化版本 |
| split | str | 数据集划分(如 train/val/test) |
| yid | str | Youtube 视频 ID |
| start | str | Youtube 视频片段的起始时间戳 |
| end | str | Youtube 视频片段的结束时间戳 |
参考文献
- 衍生来源: OpenASL(非原始作者维护或认可)
搜集汇总
数据集介绍

构建方式
在计算机视觉与手语识别领域,openasl-dwpose数据集通过创新的姿态估计技术实现了对OpenASL原始视频数据的深度重构。该数据集采用DWPose模型对原始高分辨率视频逐帧进行人体关键点检测,将动态手语信息转化为序列化姿态坐标数据,并以pickle格式存储每段视频的完整时空特征。数据构建过程严格保留原始视频的时序属性,包括帧率、持续时间和分辨率等元数据,同时整合了YouTube视频标识符及时间戳信息,为多模态研究提供了精准对齐基础。
使用方法
该数据集主要服务于手语机器翻译与姿态序列分析领域的研究。使用者可通过加载pickle文件获取视频的姿态序列及其关联元数据,结合tokenized_text字段实现视觉-语言对齐研究。建议研究者利用video_frames_per_second等时序信息构建时空模型,或将poses字段的连续关键点序列输入图神经网络。由于包含原始YouTube视频标识和起止时间戳,该数据集支持与多模态预训练模型的联合使用,但需注意其CC-BY-NC-SA 4.0许可对商业使用的限制。
背景与挑战
背景概述
OpenASL-DWPose数据集作为OpenASL数据集的衍生版本,专注于美国手语(ASL)与英语之间的翻译任务,通过DWPose模型提取视频中的姿态关键点数据,为手语识别研究提供了新的视角。该数据集由研究团队基于OpenASL原始RGB视频构建,旨在解决手语识别领域中高维视觉数据处理的复杂性。通过将动态手语视频转化为结构化的姿态序列,数据集为开发高效的手语翻译算法奠定了数据基础,推动了人机交互与无障碍技术领域的发展。
当前挑战
该数据集面临的核心挑战在于手语姿态估计的精确性与时序建模的复杂性。手语动作的细微差异可能导致语义变化,要求姿态估计算法具备毫米级的精度。数据集构建过程中,原始视频的分辨率差异与光照变化对DWPose模型的稳定性提出了严峻考验。多模态数据对齐是另一项关键挑战,需要确保姿态序列与文本标注在时间维度上的严格同步。视频片段中的遮挡现象和快速手部运动进一步增加了关键点检测的误差风险,这些因素共同构成了数据集质量提升的技术瓶颈。
常用场景
经典使用场景
在自然语言处理与计算机视觉交叉领域,openasl-dwpose数据集为手语识别研究提供了关键支持。该数据集通过DWPose模型提取的骨骼关键点数据,为研究者提供了标准化的手语动作表征,特别适用于基于姿态估计的手语翻译系统开发。其多模态特性允许同时处理视觉姿态序列和对应文本描述,为端到端手语翻译模型训练奠定基础。
解决学术问题
该数据集有效解决了手语识别领域两个核心难题:一是传统RGB视频数据存在的背景干扰问题,通过骨骼关键点提取实现了动作特征的纯化;二是跨模态对齐问题,提供精确时间同步的姿势序列与文本标注。这种结构化表征显著降低了模型学习复杂度,为探索注意力机制在时空序列建模中的应用提供了理想实验平台。
实际应用
在实际应用层面,openasl-dwpose数据集支撑的智能系统可部署于公共服务场所,实现实时手语翻译。教育领域可基于该数据集开发交互式学习工具,辅助听障人士语言训练。医疗场景中,精准的动作捕捉数据有助于康复治疗评估。这些应用显著提升了无障碍通信技术的普惠性价值。
数据集最近研究
最新研究方向
在计算机视觉与手语识别领域,基于姿态估计的数据集正逐渐成为研究热点。openasl-dwpose数据集通过DWPose算法提取OpenASL视频中的关键点信息,为手语翻译任务提供了轻量化且隐私友好的数据形式。当前研究主要聚焦于如何利用姿态序列提升连续手语识别的准确率,特别是在跨模态学习框架下探索时序建模与文本生成的协同优化。该数据集的推出恰逢元宇宙与虚拟人技术蓬勃发展的时代背景,其低带宽、高语义密度的特性为远程手语教学和无障碍通信系统提供了新的技术路径。
以上内容由遇见数据集搜集并总结生成



