how2sign-resnet50-mediapipe-30-pose
收藏Hugging Face2026-03-31 更新2026-04-01 收录
下载链接:
https://huggingface.co/datasets/sodonne6/how2sign-resnet50-mediapipe-30-pose
下载链接
链接失效反馈官方服务:
资源简介:
How2Sign ResNet50 + MediaPipe 30-Pose Features 是一个从原始 How2Sign 语料库派生的特征数据集,专门为手语翻译和相关多模态序列建模任务设计。该数据集包含预计算的 ResNet50 视觉特征和 MediaPipe 基于姿势的特征,适用于训练和评估流程。当前上传的压缩分割档案包括训练集和验证集的前视图和侧视图特征。数据集以 .tar.zst 格式分发,旨在高效存储和传输大量预计算特征文件。该数据集适用于非商业研究用途,如手语翻译模型训练、基于特征的多模态模型训练以及避免重复特征提取。使用时应遵循原始 How2Sign 数据集的 CC BY-NC 4.0 许可条款,并正确引用原始作者的工作。
How2Sign ResNet50 + MediaPipe 30-Pose Features is a feature dataset derived from the original How2Sign corpus, specifically designed for sign language translation and related multimodal sequence modeling tasks. This dataset contains pre-computed ResNet50 visual features and MediaPipe-based pose features, which are suitable for training and evaluation workflows. The currently uploaded compressed split archive includes front-view and side-view features for both the training and validation sets. The dataset is distributed in .tar.zst format to enable efficient storage and transmission of large volumes of pre-computed feature files. This dataset is intended for non-commercial research use cases, such as sign language translation model training, feature-based multimodal model training, and avoiding redundant feature extraction. When utilizing this dataset, users must comply with the CC BY-NC 4.0 license terms of the original How2Sign dataset and properly cite the original authors' work.
创建时间:
2026-03-17
原始信息汇总
How2Sign ResNet50 + MediaPipe 30-Pose Features 数据集概述
数据集简介
这是一个从原始 How2Sign 语料库构建的衍生特征数据集。它打包了针对选定How2Sign数据分割和摄像机视角预计算的ResNet50视觉特征以及MediaPipe姿态特征。
语言
- 英语
许可证
- CC BY-NC 4.0
标签
- asl
- sign-language
- how2sign
- video
- multimodal
- feature-extraction
- resnet50
- mediapipe
- pose-estimation
数据集内容
当前上传包含以下压缩分割归档文件(.tar.zst格式):
how2sign_train_frontal_features.tar.zsthow2sign_train_side_features.tar.zsthow2sign_val_frontal_features.tar.zst
预期用途
该数据集旨在用于研究和教育用途,尤其适用于:
- 训练手语翻译模型
- 训练基于特征的多模态模型
- 避免在原始How2Sign视频上重复进行特征提取
- 使用固定的预计算输入进行可重复的实验
源数据集
原始数据来源于 How2Sign,这是一个由Duarte等人(CVPR 2021)提出的大规模多模态、多视角连续美国手语数据集。
重要说明
- 该仓库包含衍生特征,而非原始的How2Sign视频。
- 文本标注、元数据表和训练脚本不一定包含在内,除非单独上传。
- 用户应确保其使用方式符合原始How2Sign的许可证和使用条款。
引用
原始How2Sign论文
bibtex @InProceedings{Duarte_2021_CVPR, author = {Duarte, Amanda and Palaskar, Shruti and Ventura, Lucas and Ghadiyaram, Deepti and DeHaan, Kenneth and Metze, Florian and Torres, Jordi and Giro-i-Nieto, Xavier}, title = {How2Sign: A Large-Scale Multimodal Dataset for Continuous American Sign Language}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2021}, pages = {2735-2744} }
搜集汇总
数据集介绍

构建方式
在计算机视觉与多模态学习领域,高效的特征表示对于手语翻译等任务至关重要。该数据集源自How2Sign原始语料库,通过ResNet50模型提取视觉特征,并结合MediaPipe姿态估计算法生成30个关键点的姿态特征。这些特征以分视图(正面与侧面)和分数据集(训练集与验证集)的形式,预先计算并封装为压缩的.tar.zst归档文件,旨在为研究者提供可直接用于模型训练的预处理输入,避免重复的特征提取过程。
使用方法
该数据集专为手语翻译、手语识别及多模态序列建模等研究任务设计。用户可直接下载提供的特征归档文件,将其整合到训练与评估流程中,作为模型的输入特征。使用时需注意,数据集仅包含预提取特征,不附带原始视频或文本标注,因此应结合原始How2Sign数据集获取完整标注信息。研究者应引用原始论文,并遵守CC BY-NC 4.0许可条款,将成果限于非商业研究用途。
背景与挑战
背景概述
在计算机视觉与多模态学习领域,手语识别与翻译研究长期面临高质量数据稀缺的困境。How2Sign数据集由Amanda Duarte等研究人员于2021年CVPR会议上正式发布,其核心研究目标在于构建一个大规模、多视角、连续性的美国手语(ASL)视频语料库,以支持端到端的手语翻译与识别模型训练。该数据集通过采集多样化的教学视频,同步记录手语表演者的正面与侧面视角,并配以详细的英文文本标注,为多模态序列建模提供了丰富的视觉与语言对齐信息。作为该领域的里程碑式资源,How2Sign显著推动了基于深度学习的手语理解技术发展,促进了人机交互与无障碍通信技术的进步。
当前挑战
手语识别领域固有的挑战在于连续手语动作的时空建模复杂性,以及视觉特征与语言语义之间的跨模态对齐难题。How2Sign数据集旨在应对这些挑战,通过提供多视角视频与文本标注,支持模型学习手语动作的细微差异与上下文依赖关系。在数据集构建过程中,研究人员需克服大规模视频采集与标注的高成本问题,确保不同视角间的时间同步与空间一致性,并处理手语表演者个体差异带来的动作多样性。此外,从原始视频中提取鲁棒的特征表示,如本数据集所采用的ResNet50与MediaPipe姿态特征,需平衡计算效率与特征判别力,以适配下游任务的多样化需求。
常用场景
经典使用场景
在计算机视觉与多模态学习领域,How2Sign-ResNet50-MediaPipe-30-Pose数据集为手语翻译研究提供了标准化的特征输入。该数据集通过预提取的ResNet50视觉特征与MediaPipe姿态特征,将连续美国手语视频转化为结构化序列,极大地简化了模型训练流程。研究者可直接利用这些特征进行端到端的翻译模型训练,无需重复处理原始视频数据,从而专注于算法优化与性能提升。
解决学术问题
该数据集有效解决了手语识别与翻译研究中数据预处理复杂、计算成本高昂的瓶颈问题。通过提供统一的多视角特征表示,它支持跨模态对齐、时序建模等核心研究,促进了手语动作语义理解与自然语言生成之间的桥梁构建。其标准化特征格式为学术界提供了可复现的实验基准,推动了手语处理领域从传统方法向深度学习范式的转型。
实际应用
在实际应用中,该数据集的特征工程成果可直接服务于无障碍技术开发,例如实时手语翻译系统与智能助听设备。教育机构可利用这些特征构建交互式手语学习平台,而多媒体内容生产者则能借助其实现视频自动字幕生成。这些应用不仅提升了听障人士的信息可及性,也为多模态人机交互界面提供了技术支撑。
数据集最近研究
最新研究方向
在计算机视觉与多模态学习领域,手语识别与翻译正成为人机交互研究的前沿热点。基于How2Sign数据集衍生的ResNet50与MediaPipe姿态特征,当前研究聚焦于融合视觉与姿态信息的端到端翻译模型构建。学者们致力于利用这些预提取特征,探索多视角(如正面与侧面)数据在提升模型鲁棒性方面的潜力,以应对真实场景中的视角变化挑战。此类工作不仅推动了连续手语翻译的精度突破,也为无障碍通信技术的实际应用奠定了数据基础,促进了人工智能在促进信息平等方面的社会意义。
以上内容由遇见数据集搜集并总结生成



