YouTube-SL-25

arXiv2024-07-16 更新2024-07-18 收录

下载链接：

https://arxiv.org/abs/2407.11144v1

下载链接

链接失效反馈

官方服务：

资源简介：

YouTube-SL-25是由谷歌和DeepMind创建的大规模多语言手语视频数据集，包含超过3000小时的视频，覆盖超过25种手语，旨在用于手语到文本的翻译模型预训练。数据集通过自动分类器和人工审核相结合的方式创建，确保了视频与字幕的良好对齐。该数据集的应用领域广泛，包括手语翻译、字幕对齐和手语识别等，旨在解决全球范围内手语数据稀缺的问题，特别是对于资源较少的手语。

YouTube-SL-25 is a large-scale multilingual sign language video dataset jointly developed by Google and DeepMind. It encompasses over 3,000 hours of video content spanning more than 25 distinct sign languages, and is specifically designed for pre-training sign language-to-text translation models. Constructed via a hybrid workflow integrating automatic classifiers and human review, the dataset ensures high-fidelity alignment between video segments and their accompanying subtitles. Boasting broad application prospects across tasks such as sign language translation, subtitle alignment, and sign language recognition, YouTube-SL-25 aims to mitigate the global scarcity of sign language datasets, particularly for under-resourced sign languages.

提供机构：

谷歌

创建时间：

2024-07-16

原始信息汇总

YouTube-SL-25 数据集概述

数据集名称

YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus

数据集描述

YouTube-SL-25 是一个大规模、开放领域的多语种手语并行语料库，包含从 YouTube 上提取的似乎良好对齐的手语视频和字幕。该数据集包含超过 3000 小时的视频，涵盖超过 25 种手语。

数据集特点

规模：YouTube-SL-25 的规模是 YouTube-ASL 的 3 倍以上。
并行性：这是迄今为止最大的手语并行数据集。
多样性：对于许多组成语言来说，这是第一个或最大的并行数据集。

数据集应用

该数据集用于手语到文本的任务，使用基于 T5 的统一多语种多任务模型，并在 4 种手语的基准上报告分数。结果表明，多语种迁移对高资源和低资源手语都有益。

作者

Garrett Tanzer
Biao Zhang

提交日期

2024年7月15日

搜集汇总

数据集介绍

构建方式

YouTube-SL-25 数据集的构建采用了两步流程。首先，通过自动分类器在文本元数据上识别可能与手语相关的视频。其次，与 YouTube-ASL 不同的是，YouTube-SL-25 使用了作者对手语和 YouTube 数据的知识在四天内对视频进行分类，根据内容的总时长对频道进行排序，然后逐个审核视频，特别注意异常值。这种方法虽然比 YouTube-ASL 的标注方式缺乏专业知识，但在实践中，即使没有完全理解，也有许多信号可以用来识别高质量的内容。

特点

YouTube-SL-25 数据集具有以下特点：1) 视频时长超过 3000 小时，包含超过 25 种手语，是 YouTube-ASL 的三倍以上，也是迄今为止最大的平行手语数据集；2) 对于其组成语言中的许多语言，YouTube-SL-25 是第一个或最大的平行数据集；3) 数据集涵盖了 55 种手语，包括低资源语言，为手语研究提供了宝贵的数据资源。

使用方法

YouTube-SL-25 数据集主要用于预训练手语到文本的翻译模型，以及中等到高质量的微调下游任务，如翻译、字幕对齐和手语识别。该数据集的使用需要开发鲁棒的过滤和预处理工具，以便实现数据集规模的进一步增长。

背景与挑战

背景概述

YouTube-SL-25 数据集的创建旨在解决手语学习研究中数据稀缺的问题。该数据集由 Google 和 DeepMind 的研究人员于 2023 年发布，是迄今为止最大的多语言手语视频语料库，包含了超过 25 种手语，视频时长超过 3000 小时。YouTube-SL-25 数据集的创建填补了手语数据集领域的空白，为手语到文本任务的机器学习研究提供了宝贵的数据资源，对于提高手语识别和翻译的准确性具有重要意义。

当前挑战

尽管 YouTube-SL-25 数据集在手语研究领域取得了重要进展，但仍面临一些挑战。首先，数据集的构建过程中，如何有效地从 YouTube 平台上筛选出高质量的手语视频和字幕是一个难题。其次，数据集的多样性仍然不足，例如，中、南美洲、非洲、西亚和中亚地区的手语内容较少。此外，数据集中的肤色和性别代表性不足，这可能导致训练出的模型在某些人群中的表现不佳。最后，尽管 YouTube-SL-25 数据集在手语翻译方面取得了显著成果，但与其他语言的机器翻译相比，数据规模仍然较小，需要更多数据才能达到普遍适用的翻译质量。

常用场景

经典使用场景

YouTube-SL-25数据集是针对手语视频的大型、开放域多语言语料库，主要针对将每种手语翻译成其地区语言的口语。该数据集的创建是为了解决手语数据匮乏的问题，特别是在全球范围内使用的众多手语中。YouTube-SL-25包含了超过3000小时的视频，涵盖了超过25种手语，是迄今为止最大的并行手语数据集。该数据集的创建过程采用了两步法：首先，使用自动分类器识别可能相关的视频；其次，通过人工审核视频质量，从而确保数据集的质量。YouTube-SL-25的创建对于手语翻译模型的研究具有重要意义，因为多语言迁移对高资源和低资源手语都有益。

解决学术问题

YouTube-SL-25数据集解决了手语数据匮乏的问题，这对于手语翻译模型的研究具有重要意义。该数据集包含了超过3000小时的视频，涵盖了超过25种手语，是迄今为止最大的并行手语数据集。通过提供大规模、多语言的手语视频数据，YouTube-SL-25为手语翻译模型的研究提供了丰富的数据资源，从而推动了手语翻译技术的发展。此外，该数据集还为手语识别任务提供了基准，这对于手语理解和处理的研究具有重要意义。

衍生相关工作

YouTube-SL-25数据集的创建和应用推动了手语翻译技术的发展，并衍生出了一系列相关的工作。首先，该数据集为手语翻译模型的研究提供了丰富的数据资源，从而推动了手语翻译技术的进步。其次，该数据集为手语识别任务提供了基准，从而推动了手语理解和处理的研究。此外，该数据集还为手语生成和手语理解的研究提供了支持，从而推动了手语技术的进一步发展。YouTube-SL-25数据集的创建和应用对于手语翻译技术的发展具有重要意义，并为相关研究提供了重要的数据资源和支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集