TVB-HKSL-News

Name: TVB-HKSL-News
Creator: 香港科技大学
Published: 2024-05-02 11:33:17
License: 暂无描述

arXiv2024-05-02 更新2024-06-21 收录

下载链接：

https://tvb-hksl-news.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

TVB-HKSL-News数据集由香港科技大学和微软亚洲研究院合作创建，旨在支持香港手语（HKSL）的大词汇量连续手语识别（SLR）和翻译（SLT）研究。该数据集包含来自两位手语翻译者的16.07小时手语视频，涵盖6,515个词汇（SLR）和2,850个中文字符或18K中文词汇（SLT）。数据集的创建过程中，大部分数据收集流程自动化，减少人工干预，适用于未来任何手语数据的大规模收集。该数据集的应用领域包括手语识别和翻译，旨在解决手语交流中的识别和翻译问题，提高手语用户的交流效率。

The TVB-HKSL-News dataset was co-developed by The Hong Kong University of Science and Technology and Microsoft Research Asia, with the goal of supporting large-vocabulary continuous sign language recognition (SLR) and sign language translation (SLT) research focused on Hong Kong Sign Language (HKSL). This dataset includes 16.07 hours of sign language videos recorded by two professional sign language interpreters, covering 6,515 vocabulary items for SLR tasks and 2,850 Chinese characters or 18K Chinese vocabulary entries for SLT tasks. During the dataset construction process, most data collection workflows were automated to reduce manual intervention, making it applicable to large-scale collection of future sign language data. Its application areas cover sign language recognition and translation, aiming to address the recognition and translation barriers in sign language communication and improve the communication efficiency of sign language users.

提供机构：

香港科技大学

创建时间：

2024-05-02

搜集汇总

数据集介绍

构建方式

在自然手语资源相对匮乏的背景下，TVB-HKSL-News数据集通过创新的自动化流程构建而成。其核心数据源为香港电视广播有限公司（TVB）长达七个月的《新闻报告（附手语翻译）》节目，该节目在固定区域呈现专业手语翻译员的同步演绎。构建过程首先运用基于ResNet18与TCN的视觉活动检测模型，自动分割出持续3至15秒的手语视频片段。同时，通过训练U-Net模型进行字幕背景消除，结合光学字符识别与动态时间规整算法，实现了手语片段与对应中文字幕文本的精准对齐。为支持手语识别研究，团队开发了专用标注软件，聘请香港手语专家对视频片段进行逐词注释，生成符合香港手语语序的词汇序列，最终形成了包含原始视频、人体关键点、字幕文本及注释词汇的多模态数据集。

特点

该数据集在连续手语识别与翻译领域展现出鲜明的特色。其词汇规模颇为可观，包含6,515个用于手语识别的注释词汇以及2,850个中文字符（约18,000个中文词汇），为大规模词汇研究提供了坚实基础。数据来源于真实的电视新闻播报环境，涵盖政治、经济、体育等多类主题，手语表达自然流畅，更贴近日常交流场景。尤为重要的是，数据集聚焦于两位手语翻译员，其中一位提供了长达11.66小时的视频数据，为研究个体手语者依赖型任务、探索训练数据量对模型性能的影响提供了独特资源。此外，数据集不仅提供原始RGB视频，还预先提取了包含面部、手部及上半身共121个关键点的序列信息，有助于模型专注于与手语相关的语义内容，提升对背景和外观变化的鲁棒性。

使用方法

TVB-HKSL-News数据集为手语识别与翻译研究提供了标准化的评估基准。研究者可依据其划分的训练集、开发集和测试集，开展大规模词汇连续手语识别任务，以词汇错误率作为核心评估指标；亦可进行手语到文本的端到端翻译任务，采用BLEU和ROUGE-L分数衡量性能。数据集支持多模态输入，既可单独使用RGB视频流或关键点热图，也可结合两者构建双流模型以融合互补信息。针对个体手语者研究，可利用主要手语者（Signer-1）的大量数据，系统探究训练数据规模与模型性能的关系。数据集中已包含基于S3D、VLT、C²SLR及TwoStream-SLR/SLT等先进模型的基线结果，为后续研究提供了明确的性能参照。数据集通过专用网站授权获取，需签署使用协议，确保其仅用于学术研究目的。

背景与挑战

背景概述

在自然语言处理与计算机视觉交叉领域，手语识别与翻译研究长期面临数据资源匮乏的挑战，尤其对于香港手语这类区域性语言。TVB-HKSL-News数据集由香港科技大学与微软亚洲研究院于2024年联合发布，旨在填补香港手语大规模连续数据集的空白。该数据集采集自电视新闻节目，历时七个月，包含16.07小时的双人手语视频，涵盖6515个手语词目与2850个中文字符，为核心研究问题——大词汇量连续手语识别与翻译提供了关键资源。其自动化采集流程与专业标注体系，为手语计算模型的发展奠定了坚实基础，显著推动了区域性手语技术的进步。

当前挑战

该数据集致力于解决大词汇量连续手语识别与翻译的领域挑战，其核心在于处理手语序列的复杂时空动态性与语序差异性。具体而言，模型需克服手语动作的连贯性、多义性以及手语与口语间的非单调对齐问题。在构建过程中，研究团队面临多重技术障碍：从电视流媒体中自动检测并分割手语活动区域，需设计鲁棒的视觉分类器以区分手语与非手语帧；字幕文本提取需应对背景干扰与动态叠加，通过背景去除与光学字符识别技术实现精准对齐；而手语词目标注则依赖专业译员的介入，以处理复合手势、同形异义等语言学特性，确保标注的一致性与准确性。

常用场景

经典使用场景

在自然语言处理与计算机视觉交叉领域，TVB-HKSL-News数据集为大规模连续手语识别与翻译研究提供了关键资源。其经典应用场景集中于探索单人手语建模的极限性能，通过为单一手语者提供长达11.66小时的训练视频，研究人员能够深入分析数据量对模型精度的影响，并开发出更适应个体差异的识别与翻译算法。

实际应用

在实际应用层面，TVB-HKSL-News数据集可服务于无障碍通信技术的开发，例如实时新闻手语翻译系统与智能辅助设备。其源自电视新闻节目的语料确保了内容的多样性与时效性，为构建能够理解政治、经济、体育等多领域话题的手语交互界面提供了训练基础，助力听障人士更便捷地获取资讯。

衍生相关工作

该数据集已催生一系列基于双流架构的经典研究工作，例如融合视频与关键点热图的TwoStream-SLR/SLT模型。这些衍生方法通过结合空间注意力机制与局部变换器，显著提升了手语识别的鲁棒性与翻译的流畅度，并为后续探索多模态预训练、在线手语处理等前沿方向奠定了实验基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集