how2sign

Hugging Face2025-02-25 更新2025-02-26 收录

下载链接：

https://huggingface.co/datasets/valeriocardoso/how2sign

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含手语视频及其对应文本的数据集，适用于视频到文本转换的任务。数据集由训练集、验证集和测试集组成，共有约415亿字节大小，示例数超过3万。数据集中的视频ID、视频名称、句子ID、句子名称、时间戳和句子文本等信息被作为特征字段提供。

This is a dataset comprising sign language videos and their corresponding texts, tailored for video-to-text conversion tasks. The dataset is split into training, validation, and test subsets, with a total size of approximately 41.5 gigabytes and over 30,000 samples. Feature fields provided include video ID, video name, sentence ID, sentence name, timestamp, and sentence text.

创建时间：

2025-02-25

搜集汇总

数据集介绍

构建方式

在构建how2sign数据集的过程中，研究者精心挑选了含有手语视频及其对应文本注释的样本。该数据集涵盖了10K至100K规模的范围，通过合理划分训练集、验证集及测试集，确保了数据集的质量和可用性。视频与文本的精确对应关系，以及时间戳信息的准确标注，为后续的模型训练和评估提供了坚实基础。

使用方法

用户在使用how2sign数据集时，可以根据具体的任务需求，选择默认配置下的训练集、验证集或测试集。数据集的每一部分均包含了视频、视频ID、视频名称、句子ID、句子名称、时间戳及对应的文本信息。用户可以通过路径指定的方式，直接加载所需的分割数据，进而开展手语识别、翻译等相关研究工作。

背景与挑战

背景概述

how2sign数据集的构建，旨在推动手语视频与文本之间的自动转换研究。该数据集由多个研究人员和机构共同开发，创建于近年，其研究背景源于手语作为一种重要的非言语交流方式，在手语使用者与听障人士之间交流中扮演着关键角色。该数据集汇集了大量手语视频及其对应的文本描述，为机器学习模型提供了丰富的学习材料，对于推动自然语言处理和计算机视觉的交叉领域研究具有重要意义。

当前挑战

尽管how2sign数据集为手语识别领域提供了宝贵的资源，但相关研究仍面临诸多挑战。首先，手语具有高度的非规范性和个体差异性，为模型的泛化能力带来了挑战。其次，在构建数据集过程中，如何准确标注视频中的手语表达，并确保文本描述与手语动作的精确对应，也是一项艰巨的任务。此外，数据集的规模虽然适中，但与大规模自然语言处理任务相比，数据量仍然有限，这对于模型的训练和性能提升构成了进一步的挑战。

常用场景

经典使用场景

在自然语言处理与计算机视觉的交叉领域，'how2sign'数据集的典型应用场景在于构建与训练能够理解手语表达的机器学习模型。该数据集提供了丰富的视频-文本对，可供模型学习手语视频中的句子对应关系，进而实现手语到文本的自动转换。

解决学术问题

该数据集有效地解决了手语识别和翻译中的标注不完整、数据稀缺等问题，为学术研究提供了重要的实验基础。其对手语语言学、交流障碍人群辅助技术以及多模态信息处理等领域的研究贡献显著。

实际应用

在实际应用中，'how2sign'数据集可用于开发辅助听障人士的交流工具，如手语翻译应用，从而促进社会的信息无障碍建设，提高特殊人群的生活质量。

数据集最近研究