Logos

Name: Logos
Creator: 俄罗斯聋人协会（All-Russian Society of the Deaf）
Published: 2025-05-16 00:31:49
License: 暂无描述

arXiv2025-05-16 更新2025-05-17 收录

下载链接：

https://github.com/ai-forever/logos

下载链接

链接失效反馈

官方服务：

资源简介：

Logos数据集是一个针对孤立的手语识别（ISLR）任务的新型俄语手语数据集，拥有381名手语者，是目前最大的ISLR数据集之一，包含2863个独特的词义类别，其中2004个类别被分组为视觉上相似的手势（VSSigns）。数据集包含了从公开数据集中重新标注的视频，并新增了扩展的词义选择和VSSigns分组阶段。Logos数据集旨在解决孤立手语识别任务中数据不足和视觉上相似手势的问题，通过显式标注视觉上相似的手势组来提高模型的训练质量，并可以用于其他语言的手语识别任务，包括小样本学习。

The Logos dataset is a novel Russian Sign Language dataset designed for the Isolated Sign Language Recognition (ISLR) task. With 381 signers, it is currently one of the largest ISLR datasets, encompassing 2863 unique meaning categories, of which 2004 categories are grouped into Visually Similar Signs (VSSigns). The dataset includes videos re-annotated from public datasets, with an extended meaning selection phase and a VSSigns grouping stage added. The Logos dataset aims to address the issues of insufficient data and visually similar gestures in isolated sign language recognition tasks, improving model training quality by explicitly annotating visually similar gesture groups, and can be applied to sign language recognition tasks for other languages, including few-shot learning.

提供机构：

俄罗斯聋人协会（All-Russian Society of the Deaf）

创建时间：

2025-05-16

搜集汇总

数据集介绍

构建方式

Logos数据集的构建采用了众包方式，通过专业手语者的参与确保了数据的多样性和真实性。数据集收录了199,668个视频，涵盖了2,863个独特的手语词汇，并进一步将其划分为2,004个视觉相似组（VSSigns）。视频分辨率至少为720p，帧率为30 FPS，总时长超过221小时。数据集的构建过程包括词汇选择、视觉相似组标注和训练-测试集划分三个阶段，确保了数据的全面性和科学性。

特点

Logos数据集是目前俄罗斯手语（RSL）中规模最大的孤立手语识别（ISLR）数据集，具有381名手语者参与，覆盖了广泛的年龄和性别分布。其独特之处在于对视觉相似手语（VSSigns）的显式标注，这为模型训练提供了更精细的语义区分。数据集还包含丰富的非手动成分（如口型、头部动作等），进一步提升了其在实际应用中的价值。

使用方法

Logos数据集可作为预训练资源，用于跨语言手语识别任务，包括少样本学习。研究表明，基于Logos预训练的模型在低资源手语数据集（如AUTSL和WLASL）上表现优异。使用方法包括直接迁移学习、多数据集联合训练等，其中多分类头联合训练方法在提升目标语言模型准确性方面表现最佳。数据集还支持对视觉相似手语的专门研究，为手语识别模型的优化提供了新的方向。

背景与挑战

背景概述

Logos数据集是由Ilya Ovodov、Petr Surovtsev等研究人员于2025年提出的一个专注于俄罗斯手语（RSL）识别的大规模孤立手语识别（ISLR）数据集。该数据集是目前为止在签名者数量和词汇量上最大的RSL数据集之一，旨在解决手语识别领域中的数据稀缺问题，特别是跨语言迁移学习的挑战。Logos数据集通过众包方式收集，包含199,668个视频，覆盖2,863个独特的手势类别，并特别标注了视觉相似手势（VSSigns）组，以提高模型的泛化能力。该数据集的推出不仅为俄罗斯手语识别提供了丰富的训练资源，还通过其规模和质量，为跨语言手语识别任务提供了重要的预训练基础。

当前挑战

Logos数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，手语识别任务本身具有高度复杂性，尤其是视觉相似手势（VSSigns）的存在使得分类任务更加困难。这些手势在形状和动作上相似，但语义不同，容易导致标注歧义和模型混淆。在构建过程中，数据集的规模和质量要求极高，需要大量的签名者和多样化的场景，同时还需确保标注的一致性和准确性。此外，跨语言迁移学习的有效性依赖于大规模预训练数据，如何利用Logos数据集提升低资源手语识别性能，也是一个重要的研究方向。

常用场景

经典使用场景

Logos数据集作为目前规模最大的俄罗斯手语（RSL）孤立手语识别（ISLR）数据集，其经典使用场景主要体现在跨语言手语识别模型的预训练与迁移学习。该数据集凭借381名手语者提供的20万条视频样本和2863个词汇量，为研究者提供了丰富的训练素材。尤其在处理低资源手语识别任务时，基于Logos预训练的视觉编码器展现出卓越的泛化能力，例如在WLASL（美国手语）和AUTSL（土耳其手语）数据集上的迁移实验中，仅需少量目标语言样本即可实现高效微调。

实际应用

在实际应用层面，Logos数据集支撑的手语识别技术已展现出重要的社会价值。其预训练模型可部署于跨语言手语翻译系统，助力聋哑人群与健听人群的无障碍沟通。例如，在医疗问诊、公共服务等场景中，基于该数据集开发的单流RGB视频处理模型，在保持轻量化架构的同时达到了行业领先的识别准确率。数据集特有的多样化手语者群体（涵盖不同年龄、性别）也增强了模型在真实环境中的鲁棒性。

衍生相关工作

围绕Logos数据集已衍生出多项创新性研究：在模型架构方面，MViTv2-S骨干网络与多数据集协同训练策略的结合推动了单模态手语识别性能的突破；在算法层面，研究者开发了基于语言特定分类头的跨语言迁移学习框架，该方法在WLASL数据集上刷新了SOTA指标。此外，数据集公开的视觉相似手势标注方案启发了后续研究如SignBERT+等模型对非手动特征的建模优化，为手语歧义消解提供了新范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集