how2sign

Hugging Face2026-03-30 更新2026-03-31 收录

下载链接：

https://huggingface.co/datasets/Flimdejong/how2sign

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多模态数据，由文本句子和对应的视频组成。数据集分为训练集、测试集和验证集三个部分，分别包含31,047、2,343和1,739个样本。每个样本包含三个字段：'sentence_name'（字符串类型，表示句子名称）、'sentence'（字符串类型，表示句子内容）和'video'（视频类型，表示对应的视频数据）。数据集总大小约为41.5GB，下载大小约为37.3GB。该数据集适用于多模态学习任务，如视频-文本匹配、视频描述生成等。

创建时间：

2026-03-27

搜集汇总

数据集介绍

构建方式

在计算机视觉与自然语言处理交叉领域，how2sign数据集通过系统化的采集流程构建而成。该数据集源自How2教学视频，研究人员从中提取了美国手语（ASL）的连续语句视频片段，并与对应的英文文本句子进行精确对齐。构建过程中，专业手语者参与了录制，确保了手语动作的准确性与自然度，同时通过多模态标注技术将视频、文本及句子名称整合为结构化数据，形成了包含训练、验证与测试三个标准划分的大规模语料库。

特点

how2sign数据集展现出多模态融合的显著特点，其核心特征在于同步提供了高质量的手语视频与对应的英文文本句子。数据集规模庞大，涵盖超过三万五千个样本，每个样本均包含视频流、文本及唯一标识符，视频内容清晰捕捉了手语者的上半身动作与面部表情，为连续手语识别研究提供了丰富的视觉线索。数据划分遵循机器学习常规，确保了模型训练与评估的可靠性，且视频与文本的严格对齐为跨模态理解任务奠定了坚实基础。

使用方法

该数据集适用于手语识别、机器翻译及多模态学习等研究方向。使用者可通过加载标准数据分割（训练、验证、测试）直接访问视频与文本对，利用深度学习框架进行模型训练，例如构建视觉-语言模型以将手语视频转化为文本或进行反向生成。在实际应用中，研究人员可提取视频的时空特征，结合文本嵌入，开发端到端的识别系统或探索跨模态对齐机制，推动无障碍通信技术的进步。

背景与挑战

背景概述

How2Sign数据集由卡内基梅隆大学等研究机构于2021年推出，旨在推动手语识别与翻译领域的发展。该数据集聚焦于美国手语的连续手势视频与对应英语文本的对应关系，核心研究问题在于构建大规模、多模态的标注资源，以支持自动手语翻译系统的训练与评估。其发布显著丰富了手语计算领域的语料库，为跨语言沟通技术提供了关键数据基础，促进了自然语言处理与计算机视觉的交叉研究。

当前挑战

该数据集致力于解决手语翻译中连续手势序列的识别与对齐挑战，涉及复杂的手部动作、面部表情及身体姿态的多模态融合问题。构建过程中，研究人员面临数据采集的高成本与标注一致性难题，需协调多位手语者录制高质量视频并确保文本注释的准确性。此外，视频数据的存储与处理对计算资源提出较高要求，且跨模态对齐的细粒度标注仍需进一步优化以提升模型性能。

常用场景

经典使用场景

在计算机视觉与自然语言处理的交叉领域，how2sign数据集为手语识别与翻译任务提供了关键资源。该数据集通过视频与对应文本句子的配对，支持研究者训练模型从手语视频中自动提取语义信息，进而实现手语到文本的转换。这一场景常用于开发端到端的手语识别系统，模型能够直接处理连续的手势动作，并输出连贯的句子，推动了手语理解技术的实用化进程。

实际应用

在实际应用中，how2sign数据集支撑了多种无障碍技术开发。例如，基于该数据集训练的模型可集成到实时翻译工具中，帮助听障人士与健听人群进行流畅交流；在教育领域，它可用于开发手语学习辅助系统，提供自动反馈与评估。这些应用不仅提升了社会包容性，也推动了人机交互界面的创新，使技术更贴近多元化用户需求。

衍生相关工作

围绕how2sign数据集，衍生了一系列经典研究工作。例如，研究者利用其视频-文本对开发了多模态融合架构，如基于Transformer的序列到序列模型，显著提升了手语翻译的准确性。此外，该数据集也激发了对手语视频生成、跨语言手语迁移学习等方向的探索，推动了整个手语处理领域的算法进步与理论发展。

以上内容由遇见数据集搜集并总结生成