Znaki
收藏arXiv2025-05-15 更新2025-05-17 收录
下载链接:
https://github.com/ai-forever/handreader
下载链接
链接失效反馈官方服务:
资源简介:
Znaki数据集是首个公开的俄语手指拼写数据集,包含1593个带注释的短语和超过3.7万个高清视频。该数据集由SberDevices公司创建,旨在促进俄语手指拼写识别技术的发展。数据集内容丰富,涵盖了莫斯科地铁站、世界城市、社会术语、电影标题、银行术语等多个类别,为研究手指拼写识别提供了宝贵的资源。
The Znaki dataset is the first publicly accessible Russian finger spelling dataset, consisting of 1,593 annotated phrases and over 37,000 high-definition videos. Developed by SberDevices, this dataset aims to advance the development of Russian finger spelling recognition technologies. Featuring diverse content, the dataset covers multiple categories including Moscow Metro stations, world cities, social terminology, movie titles, banking terms and more, providing a valuable resource for research on finger spelling recognition.
提供机构:
SberDevices, Russia
创建时间:
2025-05-15
搜集汇总
数据集介绍

构建方式
Znaki数据集的构建采用了严谨的众包采集流程,通过俄罗斯全聋协会(VOG)筛选68名合格手语者,在非受控环境下录制37,252个高清视频。数据采集过程包含短语筛选、手语者资质考核、多轮视频验证三个关键阶段:首先基于16类专有名词(如莫斯科地铁站名、世界城市名等)构建1,593个俄语短语库;随后通过RSL手语知识测试和拼写准确度考试(≥85%正确率)筛选手语者;最后采用三重验证机制确保标注质量,82%样本获验证者全票通过,时间间隔标注聚合一致性达95%。视频经MediaPipe提取54个手部与身体关键点,形成多模态数据。
特点
作为首个俄语手指拼写开源数据集,Znaki具有三大核心特征:其一是生态效度,88%视频通过手机自然拍摄,涵盖多样化光照和背景;其二是语言完备性,覆盖俄语全部33个字母及696种字母组合,字母频率分布与俄语国家语料库高度一致;其三是标注精细度,提供关键点坐标、时间边界标注及多维度元数据(如拍摄距离、设备类型等)。数据集包含35小时视频,平均序列长度102帧,23名手语者/短语的多样性设计有效避免了模型过拟合。
使用方法
该数据集支持端到端的手指拼写识别研究,提供标准化数据划分(训练58%/验证23%/测试19%)及跨模态输入:RGB视频帧经TSAM模块处理,关键点数据通过TPE编码器转化。典型应用流程包含三阶段:预处理阶段对视频进行随机旋转、水平翻转等增强;特征提取阶段可选用纯RGB(HandReaderRGB)、纯关键点(HandReaderKP)或双模态融合(HandReaderRGB+KP)架构;解码阶段采用双向GRU网络输出字符序列。实验表明,在测试集上最佳模型达到94.94%字母准确率,为俄语手语识别研究提供可靠基准。
背景与挑战
背景概述
Znaki数据集是首个针对俄罗斯手语拼写识别的开放数据集,由SberDevices的研究团队于2025年发布。该数据集包含1,593个独特短语和超过37,000个高清视频,涵盖了俄罗斯手语字母表中的所有33个字母及696种字母组合。数据集的设计旨在解决手语拼写识别中的关键问题,如快速手势动作的捕捉和模糊视频帧的处理。Znaki数据集的发布填补了俄罗斯手语研究领域的空白,并为多民族国家如俄罗斯及其周边地区的沟通障碍提供了技术解决方案。
当前挑战
Znaki数据集面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,手语拼写识别需要处理快速且复杂的手势动作,这对模型的时序信息处理能力提出了高要求。此外,不同手语使用者的手势速度和风格差异增加了识别的难度。在构建过程中,数据集的创建面临手语使用者稀缺和沟通障碍的挑战,同时确保视频质量和标注的准确性也是一大难题。这些挑战需要通过技术创新和严格的数据验证流程来克服。
常用场景
经典使用场景
Znaki数据集作为首个开放的俄罗斯手指拼写数据集,在计算机视觉领域的手语识别研究中具有重要价值。该数据集包含37,252个高清视频,覆盖1,593个独特短语和33个俄语字母的所有组合,为研究手指拼写识别提供了丰富的素材。其最经典的使用场景是训练和评估基于RGB和关键点模态的手指拼写识别模型,如HandReader系列架构,这些模型通过处理不同长度的视频序列,实现了对手指拼写动作的高效识别。
解决学术问题
Znaki数据集解决了俄罗斯手语研究领域缺乏高质量、多样化手指拼写数据的关键问题。通过提供大量标注精确的视频样本,该数据集支持了时序建模、多模态融合等前沿技术的研究。特别值得注意的是,数据集中的视频涵盖了不同年龄、性别的使用者,以及多样化的背景环境,这为研究模型的泛化能力和鲁棒性提供了重要基础。该数据集的发布填补了俄语手指拼写识别研究的空白,对推动手语识别技术的公平性和包容性发展具有重要意义。
衍生相关工作
Znaki数据集的发布催生了一系列相关研究工作。除了原论文提出的HandReader架构外,该数据集还支持了多模态融合、时序建模等方面的创新研究。基于Znaki数据集,研究者可以探索更高效的视频特征提取方法,如改进的时空卷积网络;也可以开发新的数据增强策略,以应对不同拍摄角度和光照条件下的识别挑战。这些衍生工作不仅提升了俄语手指拼写识别的准确率,也为其他手语识别任务提供了可借鉴的技术路线。
以上内容由遇见数据集搜集并总结生成



