YouTube-ASL

arXiv2023-10-27 更新2024-06-21 收录

下载链接：

https://github.com/google-research/google-research/tree/master/youtube_asl

下载链接

链接失效反馈

官方服务：

资源简介：

YouTube-ASL是由谷歌创建的大型开放领域美国手语-英语平行语料库，包含约1000小时视频和超过2500名独特的手语者。该数据集主要用于ASL到英语的机器翻译，通过自动内容标记和人工注释筛选，确保视频质量。数据集的应用领域包括提升手语翻译和字幕对齐技术，最终目的是提高聋人和听力障碍社区的可访问性。

YouTube-ASL is a large open-domain American Sign Language (ASL)-English parallel corpus created by Google, containing approximately 1,000 hours of video and over 2,500 unique signers. This dataset is primarily used for ASL-to-English machine translation, where automatic content tagging and manual annotation are employed to screen data and ensure video quality. Its application scenarios include advancing sign language translation and subtitle alignment technologies, with the ultimate goal of improving accessibility for the deaf and hard-of-hearing communities.

提供机构：

谷歌

创建时间：

2023-06-27

搜集汇总

数据集介绍

构建方式

YouTube-ASL 数据集的构建过程分为两步：首先，使用基于内容的自动标注来检索可能与手语相关的视频；其次，通过熟练的人工标注员对每个视频进行筛选。自动检索步骤包括从 YouTube 视频标注系统中提取与手语相关的视频标签，然后筛选出具有用户生成字幕的视频。人工筛选步骤包括雇佣三名母语为 ASL 且精通英语的标注员，使用内部工具对视频进行标注，以确保视频字幕与 ASL 内容的良好对齐。

特点

YouTube-ASL 数据集具有以下特点：1) 规模庞大，包含约 1000 小时的视频和超过 2500 名独特的签名者；2) 开放域，涵盖了广泛的视频内容，更接近真实世界的条件；3) 高质量字幕，字幕与 ASL 内容的良好对齐，提高了数据集的质量；4) 多样性，包含了不同技能水平和签名风格的视频，有助于提高模型的泛化能力。

使用方法

YouTube-ASL 数据集可用于 ASL 到英语的机器翻译任务。用户可以使用现有的组件（如 MediaPipe Holistic 和 T5）构建简单的基线模型，并通过在 How2Sign 数据集上进行评估来验证模型性能。此外，数据集还可以用于 ASL 到英语的标题对齐、英语到 ASL 的翻译等任务。

背景与挑战

背景概述

美国手语（ASL）作为一种被边缘化社群使用的少数语言，其机器学习研究一直受到数据匮乏的限制。为了解决这一问题，David Uthus、Garrett Tanzer和Manfred Georg等研究人员于2023年创建了YouTube-ASL数据集。该数据集是一个大规模、开放领域的美国手语视频及其伴随的英文字幕的语料库，旨在促进ASL到英语的机器翻译研究。YouTube-ASL数据集拥有约1000小时的视频和超过2500个独特的表演者，比之前最大的ASL数据集大3倍，独特的表演者数量多10倍。该数据集的创建不仅解决了手语数据匮乏的问题，还为手语研究提供了一个广泛而多样化的资源，对于推动手语研究和提高听障社区的可达性具有重要意义。

当前挑战

YouTube-ASL数据集的创建过程中，研究人员面临了诸多挑战。首先，手语作为没有标准化书写形式的少数语言，其视频数据挖掘比语音语言文本检索更为困难。其次，对于翻译任务而言，需要找到与对应手语内容对齐的语音语言字幕，而非具有自身时长的旁白。为了解决这些挑战，研究人员采用了两步法构建数据集：首先使用基于内容的自动标注来识别可能相关的字幕视频；然后使用熟练的人类标注者筛选出质量较差或字幕对齐不良的视频。此外，YouTube视频可能会随着时间的推移而被删除，因此无法形成一个稳定的测试集，这给模型评估带来了额外的挑战。尽管YouTube-ASL数据集取得了显著的成果，但研究人员也指出，即使是微调后的翻译质量仍然主观上较低，尚未达到实际应用的水平。未来工作可能需要探索更精细的建模方法，以及如何利用更广泛的数据集和跨语言迁移技术来进一步提高翻译质量。

常用场景

经典使用场景

YouTube-ASL数据集是一个大规模的开放领域美国手语（ASL）视频及其配套英文字幕的语料库，主要用于ASL到英语的机器翻译。该数据集包含约1000小时的视频和超过2500个独特的手语者，是迄今为止最大的ASL数据集之一。YouTube-ASL数据集的经典使用场景包括手语识别、手语翻译、字幕对齐等。通过YouTube-ASL数据集，研究人员可以训练和评估机器翻译模型，以实现ASL到英语的自动翻译，提高聋人和听力障碍人士的信息获取能力。

解决学术问题

YouTube-ASL数据集解决了手语数据稀缺的问题。由于手语是历史上边缘化的聋人和听力障碍人士使用的少数语言，缺乏丰富的在线资源，这限制了手语机器学习研究的进展。YouTube-ASL数据集通过从YouTube挖掘视频和字幕，提供了大规模、多样化的手语数据，为手语机器学习研究提供了宝贵的数据资源。此外，YouTube-ASL数据集还解决了手语翻译中寻找与手语内容对应的语音字幕的问题，为手语翻译研究提供了新的思路。

衍生相关工作

YouTube-ASL数据集衍生了多个相关的研究工作。例如，研究人员利用YouTube-ASL数据集训练了基于T5语言模型的ASL到英语翻译模型，并在How2Sign数据集上取得了12.39 BLEU的新SOTA性能。此外，YouTube-ASL数据集还被用于开发手语识别和字幕对齐工具，为手语视频的可访问性提供了新的解决方案。YouTube-ASL数据集的发布为手语机器学习研究提供了新的方向，有望推动手语技术的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集