Sign Language Datasets

github2024-04-13 更新2024-05-31 收录

下载链接：

https://github.com/sign-language-translator/sign-language-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

用于手语翻译的数据集，包含视频、地标、单词映射和并行语料库。数据集旨在通过多种方式（如视频、文本序列等）捕捉手语的多样性，并支持多对多序列到序列翻译模型的训练。

A dataset for sign language translation, comprising videos, landmarks, word mappings, and parallel corpora. The dataset is designed to capture the diversity of sign language through various modalities (such as videos, text sequences, etc.) and supports the training of many-to-many sequence-to-sequence translation models.

创建时间：

2023-04-11

原始信息汇总

数据集概述

数据集名称: Sign Language Datasets

用途: 用于支持<kbd>sign_language_translator</kbd> Python包，专注于手语翻译。

数据集内容:

视频: 包含单个词、短语或句子的视频，可用于捕捉不同口音和风格。
地标数据: 如pk-hfad-1_landmarks-mediapipe-pose-2-hand-1-csv.zip和pk-hfad-1_landmarks-mediapipe-pose-2-hand-1-json.zip。
字典和映射: 如pk-dictionary-urls.json和pk-dictionary-mapping.json，用于词与手语视频的对应。
平行语料库: 包括翻译和glosses，如pk-sentence-mapping.json和pk-synthetic-sentence-mapping.json。

数据集结构:

命名约定: 例如，字典文件命名如country-organization-number_sign-label.mp4。
统计信息: 例如，巴基斯坦手语数据集包含776个手势，对应1584个英语单词。

下载方式:

通过命令行工具使用Python进行下载，例如pip install sign-language-translator后使用slt download命令。

数据集版本:

v0.0.4: 包含地标数据集。
v0.0.3: 包含视频数据集。
v0.0.2: 包含字典数据集。
v0.0.1: 包含用于数据集生成的语言模型。

贡献指南:

包括编译字典、录制字典视频、抓取或录制手语句子、贡献合成平行语料库和翻译现有标记、翻译和glosses到其他文本语言。

数据集详细信息:

问题概述: 手语是一种基于手势的交流方式，每个地区有自己的手语，且标准化程度有限。
手语录制选项: 包括视频、标记序列+手势字典和运动捕捉手套。
翻译数据集需求: 需要平行语料库，包括手语视频或序列的翻译和glosses。

数据集详细结构:

字典: 例如country-organization-number_sign-label.mp4。
复制: 例如c*-o*-n*_s*_person-code_camera-angle.mp4。
句子: 例如c*-o*-n*_gloss[_p*_c*].mp4。
档案: 例如c*-o*-n*[_p*-c*]_category-subcategory-extension.zip。
预处理视频: 例如c*-o*-n*_s*[_p*_c*].category-model.ext。
无词视频: 例如wordless_wordless_person_camera.mp4。

数据集统计:

巴基斯坦手语:
- 字典: 776个手势，对应1584个英语单词。
- 句子: 13个句子，英语翻译19个。
- 合成句子: 1个句子，英语翻译2个。
- 复制: 字典视频22小时，句子视频45分钟。

搜集汇总

数据集介绍

构建方式

该数据集通过整合来自不同国家的权威机构的标准手语词典，并应用标准化语法规则进行翻译和合成，构建了手语翻译所需的数据集。此外，通过记录不同个体执行手语词典中的动作，捕捉了手语表达的多样性。同时，利用深度学习技术从手语视频中生成注释和翻译，进一步丰富了数据集的内容。

特点

该数据集的显著特点在于其多样性和标准化。通过整合多国手语词典和记录不同个体的手语表达，数据集包含了丰富的手语变体。此外，数据集还通过深度学习技术生成了合成数据，增强了其应用的广泛性。

使用方法

用户可以通过安装'sign-language-translator' Python包，使用命令行工具下载所需的数据集文件。数据集文件包括视频、地标数据、词汇映射和并行语料库等。用户可以根据需要选择下载特定类型的数据，并将其用于手语翻译模型的训练和评估。

背景与挑战

背景概述

手语数据集（Sign Language Datasets）是由Mudassar Iqbal创建并维护的，旨在支持<kbd>[sign_language_translator](https://github.com/sign-language-translator/sign-language-translator)</kbd> Python包的数据集。该数据集的核心研究问题在于如何有效地记录和翻译手语，以促进不同地区手语的标准化和交流。手语作为一种基于手势的交流方式，其词汇量相对较小，且同一手势可能对应多种口语词汇。每个地区的手语都有其独特性，缺乏大规模的标准化努力。因此，该数据集的创建旨在通过记录和分析手语视频，生成标准化的手语词典和翻译模型，从而推动手语翻译技术的发展。

当前挑战

手语数据集在构建过程中面临多重挑战。首先，手语的多样性和地区差异使得数据收集和标准化变得复杂。其次，手语的录制和处理需要高精度的计算机视觉技术，以捕捉手势的细微差别。此外，手语翻译模型的训练需要大量的平行语料库，而目前各地区的手语数据量有限，这限制了模型的训练效果。最后，手语的动态性和个体差异（如手语者的‘口音’）增加了数据处理的难度，要求模型具备高度的适应性和鲁棒性。

常用场景

经典使用场景

在手语翻译领域，Sign Language Datasets数据集的经典使用场景主要集中在构建和训练手语翻译模型。该数据集通过收集和整理不同地区的手语视频、手势序列及其对应的文本翻译，为研究人员提供了一个丰富的资源库。这些数据可以用于训练序列到序列（seq2seq）翻译模型，从而实现从手语视频到文本的自动翻译。此外，数据集中的视频和手势序列还可以用于计算机视觉任务，如手势识别和动作分析，进一步推动手语理解和翻译技术的发展。

衍生相关工作

基于Sign Language Datasets数据集，研究人员开展了一系列相关工作，进一步推动了手语翻译技术的发展。例如，有研究利用该数据集训练深度学习模型，实现了高精度的手语识别和翻译。此外，还有工作探索了手语合成技术，通过拼接数据集中的手语视频片段生成新的手语表达。这些衍生工作不仅丰富了手语翻译的研究内容，还为手语技术的实际应用提供了新的可能性。通过不断扩展和深化这些研究，Sign Language Datasets数据集在手语翻译领域的影响力得到了持续增强。

数据集最近研究