BBC-Oxford British Sign Language (BOBSL) dataset

Name: BBC-Oxford British Sign Language (BOBSL) dataset
Creator: 视觉几何组, 牛津大学
Published: 2021-11-06 01:35:58
License: 暂无描述

arXiv2021-11-06 更新2024-06-21 收录

下载链接：

https://www.robots.ox.ac.uk/~vgg/data/bobsl/

下载链接

链接失效反馈

官方服务：

资源简介：

BOBSL数据集是由牛津大学视觉几何组与BBC合作开发的大型手语视频集合，专注于英国手语（BSL）。该数据集基于先前工作的BSL-1K数据集扩展而来，旨在为手语技术研究提供大规模公共数据集。BOBSL数据集包含多种类型的视频内容，覆盖广泛的领域，支持手语识别、对齐和翻译等任务。数据集通过自动和手动注释方法进行标注，以确保数据质量和可用性。

The BOBSL dataset is a large-scale sign language video corpus developed in collaboration by the Visual Geometry Group at the University of Oxford and the BBC, focusing on British Sign Language (BSL). Derived from the BSL-1K dataset from prior work, this dataset aims to provide a large-scale public resource for sign language technology research. The BOBSL dataset contains various types of video content covering a wide range of domains, supporting tasks such as sign language recognition, alignment and translation. The dataset is annotated via both automatic and manual annotation methods to ensure data quality and usability.

提供机构：

视觉几何组, 牛津大学

创建时间：

2021-11-06

搜集汇总

数据集介绍

构建方式

在自然语言处理与计算机视觉交叉领域，构建大规模手语数据集面临诸多挑战。BOBSL数据集的构建依托英国广播公司（BBC）2007至2020年间播出的电视节目，原始素材包含手语译员视频及对应的英文字幕。通过系统化预处理流程，包括视频裁剪至444×444像素以聚焦手语区域、应用人脸检测与模糊技术保护隐私，并对字幕进行时间轴校准。数据集依据手语者身份划分为训练、验证与测试集，确保评估的独立性。自动标注环节融合了三种关键技术：基于口型运动的关键词定位、词典样本匹配以及Transformer注意力机制，实现了对连续手语中词汇实例的大规模弱监督标注。

使用方法

BOBSL数据集支持手语识别、句子对齐与翻译三大核心任务。对于手语识别，研究者可利用自动标注的大规模训练集（如SIGN-TRAIN）开发分类模型，并在人工验证的测试集（SIGN-TEST）上进行评估。句子对齐任务提供音频对齐与手动精校两种时间标注，支持开发时序定位模型。翻译任务则提供句子级视频-文本对齐数据，可用于训练端到端的手语到英语的翻译系统。使用时应遵循数据划分原则，注意训练、验证与测试集在手语者身份上的严格隔离，以保障模型评估的公正性与泛化性。

背景与挑战

背景概述

在计算机视觉与自然语言处理的交叉领域，手语识别与翻译技术长期面临数据稀缺的挑战。2021年，由牛津大学、剑桥大学、伦敦大学学院及BBC研发部门联合发布的BBC-Oxford British Sign Language (BOBSL)数据集，标志着英国手语研究迈入新阶段。该数据集基于早期BSL-1K扩展而成，涵盖1962个电视节目片段，总时长约1467小时，包含39名手语译员的连续手势视频及对应英文字幕。其核心目标在于为连续手语识别、句子对齐与翻译任务提供大规模、多领域的基准数据，推动自然场景下手语理解模型的发展，并对聋人社区的辅助技术产生深远影响。

当前挑战

BOBSL数据集致力于解决连续手语识别与翻译中的核心难题，其挑战主要体现在两方面：首先，在领域问题层面，手语与英语间存在复杂的多对多映射关系，且手语语法结构独特，使得自动标注与模型训练极易受到词汇歧义与语境变异的影响；其次，在构建过程中，数据源自电视广播的翻译内容，而非自然对话，导致语料存在领域偏差与注册体限制。同时，大规模视频的自动标注依赖口型关键词检测、词典匹配及注意力机制等弱监督方法，虽提升了标注效率，却引入了噪声与选择偏差，且手动验证的测试集分布难以完全反映真实世界手语的多样性，为模型的泛化能力带来严峻考验。

常用场景

经典使用场景

在计算机视觉与自然语言处理的交叉领域，BBC-Oxford British Sign Language (BOBSL) 数据集为手语识别、对齐与翻译任务提供了大规模、多模态的研究基础。该数据集源自英国广播公司（BBC）的手语翻译电视节目，涵盖了广泛的主题与语境，其核心应用场景在于训练和评估连续手语理解模型。通过自动与手动标注的结合，BOBSL支持从孤立手势识别到连贯句子翻译的多种实验，为构建鲁棒的“野外”手语理解系统奠定了数据基石。

解决学术问题

BOBSL数据集有效应对了手语技术研究中长期存在的数据稀缺挑战，特别是针对英国手语（BSL）的大规模、自然语境下的连续手势数据。它通过提供超过1,467小时的视频及对应英文字幕，解决了传统数据集中存在的规模有限、词汇量小、录制环境单一以及领域狭窄等问题。该数据集促进了对手语共现现象（co-articulation）的建模研究，并为跨模态对齐、翻译等任务提供了基准测试平台，推动了手语语言学与计算模型之间的深度融合。

实际应用

BOBSL数据集的实际应用价值体现在提升手语技术的可访问性与交互性上。例如，基于该数据集训练的模型可用于开发视频索引与检索系统，使聋人社区能够高效搜索手语内容；同时，它也为构建类似Siri或Alexa的手语交互虚拟助手提供了数据支持，改善聋人与硬听人士的数字沟通体验。此外，数据集中的多领域内容有助于开发适应不同场景的手语翻译服务，增强广播电视等媒体的无障碍访问能力。

数据集最近研究