openasl-dwpose

Hugging Face2025-04-19 更新2025-04-20 收录

下载链接：

https://huggingface.co/datasets/PladsElsker/openasl-dwpose

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个正在构建中的派生数据集，名为OpenASL DWPose。它基于OpenASL数据集，但包含的是通过DWPose预测得到的姿势关键点数据，而不是原始的RGB视频。数据集的每个样本都是作为一个pickle文件存储的，并且所有的关键点都是使用原始视频的全分辨率生成的，以最大化准确性。

创建时间：

2025-04-13

原始信息汇总

OpenASL DWPose 数据集概述

基本信息

许可证: CC-BY-NC-SA 4.0
任务类别: 翻译
语言: 英语 (en)、美国手语 (asl)
数据集名称: OpenASL DWPose

数据集状态

当前状态: 构建中（预计几天内完成）

数据集内容

来源: 基于 OpenASL 数据集的衍生版本
数据类型: 姿态估计数据（替代原始 RGB 视频）
姿态估计方法: 使用 DWPose 预测姿态关键点
数据存储格式: 每个样本存储为 pickle 文件
关键点生成: 使用原始视频的全分辨率以确保最大精度

数据字段说明

字段名称	数据类型	描述
poses	list	由 DWPose 从视频帧推断的姿态数据
video_frames_per_second	float	视频的帧率
video_duration	float	视频持续时间（秒）
video_frame_count	int	视频帧数
video_width	int	视频宽度
video_height	int	视频高度
file_stem	str	文件名主干（不含扩展名）
raw_text	str	原始文本描述
tokenized_text	str	原始文本的标记化版本
split	str	数据集划分（如 train/val/test）
yid	str	Youtube 视频 ID
start	str	Youtube 视频片段的起始时间戳
end	str	Youtube 视频片段的结束时间戳

参考文献

衍生来源: OpenASL（非原始作者维护或认可）

搜集汇总

数据集介绍

构建方式

在计算机视觉与手语识别领域，openasl-dwpose数据集通过创新的姿态估计技术实现了对OpenASL原始视频数据的深度重构。该数据集采用DWPose模型对原始高分辨率视频逐帧进行人体关键点检测，将动态手语信息转化为序列化姿态坐标数据，并以pickle格式存储每段视频的完整时空特征。数据构建过程严格保留原始视频的时序属性，包括帧率、持续时间和分辨率等元数据，同时整合了YouTube视频标识符及时间戳信息，为多模态研究提供了精准对齐基础。

使用方法

该数据集主要服务于手语机器翻译与姿态序列分析领域的研究。使用者可通过加载pickle文件获取视频的姿态序列及其关联元数据，结合tokenized_text字段实现视觉-语言对齐研究。建议研究者利用video_frames_per_second等时序信息构建时空模型，或将poses字段的连续关键点序列输入图神经网络。由于包含原始YouTube视频标识和起止时间戳，该数据集支持与多模态预训练模型的联合使用，但需注意其CC-BY-NC-SA 4.0许可对商业使用的限制。

背景与挑战

背景概述

OpenASL-DWPose数据集作为OpenASL数据集的衍生版本，专注于美国手语（ASL）与英语之间的翻译任务，通过DWPose模型提取视频中的姿态关键点数据，为手语识别研究提供了新的视角。该数据集由研究团队基于OpenASL原始RGB视频构建，旨在解决手语识别领域中高维视觉数据处理的复杂性。通过将动态手语视频转化为结构化的姿态序列，数据集为开发高效的手语翻译算法奠定了数据基础，推动了人机交互与无障碍技术领域的发展。

当前挑战

该数据集面临的核心挑战在于手语姿态估计的精确性与时序建模的复杂性。手语动作的细微差异可能导致语义变化，要求姿态估计算法具备毫米级的精度。数据集构建过程中，原始视频的分辨率差异与光照变化对DWPose模型的稳定性提出了严峻考验。多模态数据对齐是另一项关键挑战，需要确保姿态序列与文本标注在时间维度上的严格同步。视频片段中的遮挡现象和快速手部运动进一步增加了关键点检测的误差风险，这些因素共同构成了数据集质量提升的技术瓶颈。

常用场景

经典使用场景

在自然语言处理与计算机视觉交叉领域，openasl-dwpose数据集为手语识别研究提供了关键支持。该数据集通过DWPose模型提取的骨骼关键点数据，为研究者提供了标准化的手语动作表征，特别适用于基于姿态估计的手语翻译系统开发。其多模态特性允许同时处理视觉姿态序列和对应文本描述，为端到端手语翻译模型训练奠定基础。

解决学术问题

该数据集有效解决了手语识别领域两个核心难题：一是传统RGB视频数据存在的背景干扰问题，通过骨骼关键点提取实现了动作特征的纯化；二是跨模态对齐问题，提供精确时间同步的姿势序列与文本标注。这种结构化表征显著降低了模型学习复杂度，为探索注意力机制在时空序列建模中的应用提供了理想实验平台。

实际应用

在实际应用层面，openasl-dwpose数据集支撑的智能系统可部署于公共服务场所，实现实时手语翻译。教育领域可基于该数据集开发交互式学习工具，辅助听障人士语言训练。医疗场景中，精准的动作捕捉数据有助于康复治疗评估。这些应用显著提升了无障碍通信技术的普惠性价值。

数据集最近研究