TUB Sign Language Corpus Collection

Name: TUB Sign Language Corpus Collection
Creator: 德国人工智能研究中心 (DFKI)
Published: 2025-08-07 21:16:55
License: 暂无描述

arXiv2025-08-07 更新2025-08-09 收录

下载链接：

https://github.com/DFKI-SLT/TUB-Sign-Language-Corpus-Collection

下载链接

链接失效反馈

官方服务：

资源简介：

TUB手语语料库集合是一个包含12种手语视频和相应国家主要语言的字幕的平行语料库集合。整个集合包含超过1300小时的4381个视频文件，配有130万个字幕，包含1400万个词元。这个集合由来自各种在线来源的多个手语视频收集和加工而成，主要来自新闻节目、政府机构和教育频道的广播材料。该集合的创建过程包括数据收集、通知内容创作者并寻求使用许可、抓取和裁剪等多个阶段。该集合旨在解决手语技术研究中数据集缺乏的问题，为提高手语的可访问性和降低交流障碍提供支持。

The TUB Sign Language Corpus Collection is a parallel corpus set containing 12 sign language videos and subtitles in the dominant national languages corresponding to each sign language. The entire collection includes 4,381 video files totaling over 1,300 hours, accompanied by 1.3 million subtitles containing 14 million tokens. This collection is assembled and processed from multiple sign language videos sourced from various online platforms, primarily broadcast materials from news programs, government agencies, and educational channels. The creation process of this collection involves multiple stages, including data collection, notifying content creators and obtaining usage permissions, scraping, and cropping. This collection aims to address the shortage of datasets in sign language technology research, and provide support for improving sign language accessibility and reducing communication barriers.

提供机构：

德国人工智能研究中心 (DFKI)

创建时间：

2025-08-07

搜集汇总

数据集介绍

构建方式

在构建TUB手语语料库集合时，研究团队通过人工搜索和筛选来自互联网的多种手语视频资源，主要涵盖新闻节目、政府公告和教育频道等广播材料。这一过程涉及多个阶段，包括数据收集、内容创作者的通知和获取使用许可、视频抓取和裁剪。为确保数据的多样性和代表性，团队由八名母语为相应口语的成员负责手动收集视频，并验证了内容的许可信息。此外，团队还通过光学字符识别（OCR）技术提取视频中的字幕，并对视频进行裁剪以突出手语翻译者的部分。

特点

TUB手语语料库集合包含12种手语的平行语料库，总计超过1,300小时的视频内容，涵盖4,381个视频文件，并配有1.3M条字幕和14M个标记。该语料库的突出特点包括首次为8种拉丁美洲手语提供一致的平行语料库，以及德语手语（DGS）语料库的规模是之前可用语料库的十倍。此外，语料库中的视频内容主要来自政治、新闻、教育和社会领域，字幕分为手动生成和自动生成两种类型，并提供了详细的元数据以支持后续研究。

使用方法

TUB手语语料库集合以开放源代码的形式提供，用户可以通过元数据目录访问视频和字幕资源。元数据分为两个层次：频道列表和视频列表，分别提供内容来源和单个视频的详细信息。研究人员可利用该语料库进行手语识别、机器翻译和多模态学习等任务。为便于使用，团队还提供了视频裁剪和字幕对齐的技术支持，并建议用户在涉及自动生成字幕的任务时注意其潜在误差。语料库的开放性和丰富性使其成为手语技术研究的重要基础资源。

背景与挑战

背景概述

TUB Sign Language Corpus Collection是由德国人工智能研究中心（DFKI）和柏林工业大学等机构的研究团队于2025年创建的大规模手语视频语料库。该语料库涵盖了12种手语，包含超过1,300小时的视频材料和140万条字幕，特别值得注意的是首次系统性地收录了8种拉丁美洲手语的平行语料。该数据集的创建旨在解决手语技术研究中数据匮乏的核心问题，为手语识别、翻译等任务提供基础资源，推动手语技术领域的发展，改善全球约5亿听障人士的语言技术应用现状。

当前挑战

该数据集面临的主要挑战包括：1) 领域问题方面，手语与字幕之间的语义对齐存在偏差，因为字幕通常是对口语内容的转录而非手语本身的直接翻译；2) 构建过程中的技术挑战，如需要从复合视频中裁剪出手语者画面、处理不同来源的视频质量差异；3) 伦理挑战，包括确保数据采集符合FAIR和CARE原则，以及协调与各地手语社区的关系。此外，时间对齐问题也较为突出，由于手语翻译存在固有延迟，需要开发专门的技术来实现字幕与手语视频的精确同步。

常用场景

经典使用场景

在自然语言处理和计算机视觉领域，TUB Sign Language Corpus Collection 数据集被广泛应用于手语识别、手语翻译以及多模态学习研究。该数据集包含12种手语的视频及其对应的口语字幕，为研究者提供了丰富的并行语料，尤其适用于训练跨模态的机器学习模型。通过这一数据集，研究者能够深入探索手语与口语之间的语义对齐问题，从而推动手语技术的进步。

解决学术问题

TUB Sign Language Corpus Collection 数据集解决了手语技术研究中数据稀缺的核心问题。通过提供超过1,300小时的视频和14M标记的字幕，该数据集显著提升了手语识别和翻译模型的训练效果。此外，数据集首次涵盖了8种拉丁美洲手语的并行语料，填补了相关领域的研究空白，为跨语言手语研究提供了重要支持。

衍生相关工作

TUB Sign Language Corpus Collection 数据集衍生了一系列经典研究工作，包括基于多模态学习的手语翻译模型和跨语言手语识别系统。例如，部分研究利用该数据集优化了时序对齐技术，提升了手语视频与字幕的匹配精度。此外，数据集还被用于开发新型手语生成模型，进一步推动了手语合成技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集