how2sign-asl-clips

Hugging Face2026-05-04 更新2026-05-05 收录

下载链接：

https://huggingface.co/datasets/martinctl/how2sign-asl-clips

下载链接

链接失效反馈

官方服务：

资源简介：

how2sign-asl-clips数据集是从How2Sign美国手语（ASL）数据集中提取的句子级别剪辑，根据重新对齐时间戳进行切割，专为EPFL CS-503 *hand2string*项目构建。当前版本是一个单分片的工作进展镜像，包含351个源视频和4991个剪辑，未来将添加更多分片和分割。数据集包含以下元数据字段：sentence_id（主键）、sentence_name（带相机标签的完整剪辑名称）、video_id（父YouTube ID）、video_name（源mp4文件名）、start和end（源视频中的时间戳）、duration（持续时间）、sentence（英文文本转录）、split（数据集分割）、file_name（剪辑文件路径）。数据集适用于视频分类和翻译任务，特别关注手语识别和翻译领域。数据集采用CC BY-NC 4.0许可，使用时需引用原始作者。

The how2sign-asl-clips dataset is a collection of sentence-level clips extracted from the How2Sign American Sign Language (ASL) dataset, cut according to the realigned timestamps in `how2sign_realigned_train.csv`. It was built for the EPFL CS-503 *hand2string* project. The current version is a single-shard work-in-progress mirror containing 351 source videos and 4991 clips, with more shards and splits to be added in the future. The dataset includes the following metadata fields: sentence_id (primary key), sentence_name (full clip name with camera tag), video_id (parent YouTube ID), video_name (source mp4 filename), start and end (timestamps in the source video), duration (duration), sentence (English text transcription), split (dataset split), file_name (clip file path). The dataset is suitable for video classification and translation tasks, with a particular focus on sign language recognition and translation. The dataset is licensed under CC BY-NC 4.0, and users are required to cite the original authors.

创建时间：

2026-04-27

原始信息汇总

数据集概述

how2sign-asl-clips 是一个为 EPFL CS-503 hand2string 项目构建的句子级别剪辑数据集，源自 How2Sign 美国手语（ASL）数据集。

基本信息

许可证: CC BY-NC 4.0
任务类型: 视频分类、翻译
语言: 英语
标签: 手语、ASL、How2Sign
数据规模: 少于 10K 条样本

数据内容

该数据集为 How2Sign 数据集中的句子级别视频片段，根据 how2sign_realigned_train.csv 中的重新对齐时间戳进行剪辑。当前版本（进行中）包含：

351个源视频
4991个视频片段

数据模式（`metadata.parquet`）

数据集包含一个 Parquet 格式的元数据文件，其字段如下：

列名	类型	说明
sentence_id	字符串	主键，例如 `--7E2sU6zP4_10`
sentence_name	字符串	完整的 How2Sign 剪辑名称（含摄像头标签）
video_id	字符串	父视频的 YouTube ID
video_name	字符串	源 mp4 文件名（不含扩展名）
start	浮点数	在源视频中的起始时间（秒）
end	浮点数	在源视频中的结束时间（秒）
duration	浮点数	持续时间 = end - start（秒）
sentence	字符串	英语转录文本
split	字符串	数据集划分
file_name	字符串	相对于仓库根目录的剪辑路径

快速使用

可通过 huggingface_hub 的 snapshot_download 下载数据集，并使用 pandas 读取元数据文件：

python from huggingface_hub import snapshot_download import pandas as pd from pathlib import Path

local = Path(snapshot_download("martinctl/how2sign-asl-clips", repo_type="dataset")) df = pd.read_parquet(local / "metadata.parquet")

row = df.iloc[0] print(row.sentence) clip = local / row.file_name # 可播放的 mp4 文件

引用

How2Sign 原始数据集引用：

Duarte, A., Palaskar, S., Ventura, L., Ghadiyaram, D., DeHaan, K., Metze, F., Torres, J., Giró-i-Nieto, X. How2Sign: A Large-scale Multimodal Dataset for Continuous American Sign Language. CVPR 2021.

搜集汇总

数据集介绍

构建方式

How2Sign-ASL-Clips数据集源自广泛使用的How2Sign美国手语（ASL）语料库，专注于构建句子级别的视频片段。其构建核心在于利用`how2sign_realigned_train.csv`中重新校准的时间戳，从原始的ASL视频中精准切割出与英文语句对齐的短视频单元。当前版本包含来自351个源视频的4991个视频片段，每个片段均通过严格的起止时间戳分割，保证了视觉内容与对应文本翻译的精确同步，为后续的多模态研究奠定基础。

特点

该数据集最显著的特点在于其句子级别的精细粒度与结构化元数据。每个片段通过`sentence_id`进行唯一标识，并提供完整的英文转录文本、所属视频来源ID、精确时长以及数据集划分标签。这种设计使得研究者能轻松检索并利用与特定语句对应的视觉手语动作，极大便利了从视频分类到翻译任务的多模态探索。数据以Parquet格式存储元数据，并采用高效的MP4格式保存视频，兼顾了可读性与存储效率。

使用方法

使用该数据集极为便捷，开发者可通过Hugging Face Hub的`snapshot_download`函数一键下载整个数据集。加载后，利用Python的Pandas库即可读取`metadata.parquet`元数据文件，获取包含视频路径、文本及时间戳的完整数据框架。随后，通过索引特定行并访问`file_name`字段，可直接定位并播放对应的MP4视频片段，实现文本与视觉信号的无缝关联，适用于模型训练与评估的数据流水线构建。

背景与挑战

背景概述

how2sign-asl-clips数据集源自How2Sign，由Duarte等人在2021年CVPR上提出，是面向连续美国手语（ASL）理解的大规模多模态数据集。该子集由EPFL CS-503项目团队构建，专注于句子级别的ASL视频片段，精选自351个源视频，共计4991个剪辑片段。其核心研究问题在于为手语翻译与视频分类任务提供精准对齐的标注数据，通过重校准时间戳确保句子与视觉内容的高一致性。作为CC BY-NC 4.0许可的开源资源，how2sign-asl-clips填补了手语理解领域细粒度、易用数据集的空白，推动基于视频的手语识别与翻译研究向实用化发展。

当前挑战

该数据集面临的核心挑战在于手语理解领域的固有复杂性，包括手语视觉表达的时空连续性、非手部特征（如面部表情、身体姿态）的语义融合，以及跨模态句子对齐的误差控制。在构建过程中，需解决从连续视频流中精确切割句子级片段的技术难题，原始How2Sign中的时间戳需经重校准以避免对齐偏差，加之多源视频的格式差异与光照变化，增加了数据清洗与标准化的难度。此外，当前仅包含单一分片，数据量有限，扩展至更大规模数据集时需平衡标注精度与资源开销，确保样本的多样性与代表性。

常用场景

经典使用场景

在连续美国手语（ASL）识别与翻译的研究领域中，how2sign-asl-clips作为How2Sign数据集的句子级裁剪版本，为视频到文本的跨模态理解提供了精准对齐的标注资源。该数据集将原始长视频依据重新校准的时间戳分割为独立的句子片段，并附带对应的英语转录文本，使其成为训练和评估端到端手语识别与翻译模型的理想基准。研究者通常利用这些剪辑构建视频编码器与文本解码器之间的映射关系，从而在有限的句子级样本上验证模型对动态手势序列的解析能力。

解决学术问题

该数据集的核心价值在于解决了连续手语翻译中时间对齐不精确导致的数据噪声问题。通过提供更细粒度的句子级片段，它降低了模型从连续视频流中分割手势边界的困难，使得研究可以聚焦于手势特征提取与语言建模本身。这一数据特性使学术社区能够更可靠地评估基于视觉Transformer、图神经网络或循环架构的翻译模型在ASL任务上的真实性能，从而推动了非接触式人机交互和聋健沟通无障碍化等方向的理论进展。

衍生相关工作

基于how2sign-asl-clips衍生的工作主要集中在线索强化的多模态手语翻译方法上。例如，研究者利用该数据集与原始How2Sign的粗粒度标注进行对比训练，提出基于时序金字塔和对比学习的句子边界预测模型；另有一些工作将其与姿态估计特征相结合，开发出融合身体运动轨迹和面部表情的跨模态生成网络。这些衍生研究不仅验证了句子级对齐数据在手语解耦表示中的有效性，还进一步催生了面向低资源和域适应场景的ASL翻译基准测试框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集