LRW-Persian

Name: LRW-Persian
Creator: 伊朗德黑兰谢里夫科技大学
Published: 2025-10-26 23:21:42
License: 暂无描述

arXiv2025-10-26 更新2025-10-29 收录

下载链接：

http://public.dataset.url

下载链接

链接失效反馈

官方服务：

资源简介：

LRW-Persian是迄今为止最大的波斯语单词级唇读数据集，包含743个目标单词和超过414,000个视频样本，这些样本是从超过67个电视节目的1,900多个小时的镜头中提取的。该数据集旨在作为一个基准资源，提供speaker-disjoint训练和测试分割，广泛的地域和方言覆盖，以及丰富的每个剪辑元数据，包括头部姿态、年龄和性别。为了确保大规模数据质量，我们建立了一个全自动的端到端策展流程，包括基于自动语音识别（ASR）的转录、主动说话者定位、质量过滤和姿态/面具筛选。

LRW-Persian is the largest Persian word-level lip-reading dataset to date. It contains 743 target words and over 414,000 video samples, which are extracted from more than 1,900 hours of footage sourced from over 67 television programs. This dataset is intended to serve as a benchmark resource, providing speaker-disjoint training and test splits, extensive geographic and dialectal coverage, and comprehensive per-clip metadata including head pose, age, and gender. To guarantee the quality of the large-scale dataset, we developed a fully automated end-to-end curation pipeline that encompasses ASR-based transcription, active speaker localization, quality filtering, and pose/mask screening.

提供机构：

伊朗德黑兰谢里夫科技大学

创建时间：

2025-10-26

搜集汇总

数据集介绍

构建方式

在视觉语音识别研究领域，构建高质量数据集是推动技术发展的关键基础。LRW-Persian数据集通过精心设计的端到端自动化流程构建而成，首先从67个波斯语电视节目中收集了1989小时的原始视频素材，利用VOSK语音识别工具生成词级转录，并通过TalkNet框架实现主动说话者定位。随后采用多阶段质量筛选机制，结合MediaPipe进行头部姿态分析，运用MobileNetV2进行口罩遮挡检测，最后通过DeepFace模型评估年龄、性别等元数据，确保最终保留的41.4万条视频片段均具备高质量、正面视角和无遮挡的特性。

特点

作为目前规模最大的波斯语词级唇读数据集，LRW-Persian展现出显著的多维特征优势。该数据集涵盖743个目标词汇，词汇量远超现有波斯语资源，同时包含超过41.4万个高质量视频样本，样本数量达到同类数据集的两倍。其独特价值体现在广泛的地域和方言覆盖，采集自伊朗多个地区的电视节目，真实反映了自然语境下的波斯语发音特征。数据集还提供了详尽的元数据标注，包括头部姿态角度、年龄性别信息，以及严格划分的说话者不相交的训练测试集，为模型泛化能力评估提供了可靠基础。

使用方法

在唇读技术研究实践中，LRW-Persian数据集为波斯语视觉语音识别提供了标准化基准平台。研究人员可直接使用其预划分的训练测试集进行模型训练与评估，利用丰富的元数据开展多模态分析。数据集支持端到端的唇读模型开发，已通过Multi-Scale TCN和ResNet+BiLSTM两种主流架构验证了基准性能。特别适用于低资源语言场景下的跨语言迁移学习研究，其大规模高质量样本为探索波斯语特有的音素-视位映射关系提供了充分的数据支撑，同时可用于辅助听力技术、鲁棒语音识别系统等实际应用场景的开发验证。

背景与挑战

背景概述

视觉语音识别作为增强语音系统鲁棒性和辅助听力障碍人群的关键技术，近年来在深度学习推动下取得显著进展。2025年由谢里夫理工大学Zahra Taghizadeh等人发布的LRW-Persian数据集，填补了波斯语唇读研究资源匮乏的空白。该数据集从67个电视节目中提取1989小时素材，涵盖743个高频词汇和41.4万条视频样本，通过自动化流水线确保数据质量与多样性。其跨区域方言覆盖和丰富元数据标注，为低资源语言的多模态研究奠定了重要基础。

当前挑战

波斯语唇读面临视觉音素相似性高、地域方言变异大的核心难题，LRW-Persian通过大规模真实场景数据应对此类挑战。构建过程中需克服多阶段技术障碍：自动语音识别需在电视广播复杂声学环境下保证转录精度；TalkNet框架需精准定位多人场景中的主动说话者；MediaPipe与DeepFace需协同处理头部姿态极端偏移、口罩遮挡等质量过滤问题。最终通过端到端质控流程，在保持语言多样性的同时实现样本标准化。

常用场景

经典使用场景

在视觉语音识别研究领域，LRW-Persian数据集作为波斯语唇读任务的核心基准，为构建端到端的视觉语音识别系统提供了重要支撑。该数据集通过从67个电视节目中提取的414,000余个高质量视频样本，覆盖743个常用波斯语词汇，为深度神经网络模型训练提供了丰富的视觉语音对应关系。研究人员利用该数据集可开展词汇级别的唇读识别实验，探索不同网络架构对波斯语视觉特征的表征能力。

实际应用

在实际应用层面，LRW-Persian数据集为开发面向波斯语使用者的辅助技术提供了关键数据支持。基于该数据集训练的唇读模型可应用于嘈杂环境下的语音增强系统，为听力障碍人士开发视觉语音辅助设备。在安防领域，该数据集支撑的视觉语音识别技术可用于视频监控中的无声语音解析。此外，在多媒体内容检索中，基于唇读的视频标注技术能够提升波斯语视频内容的检索效率。

衍生相关工作

围绕LRW-Persian数据集已衍生出多项重要研究工作。研究团队在该数据集上微调了Multi-Scale TCN和ResNet+BiLSTM等经典唇读架构，建立了波斯语视觉语音识别的性能基准。这些工作揭示了波斯语唇读任务相较于英语的独特挑战，推动了针对低资源语言的域自适应方法研究。数据集提供的标准化评估协议促进了跨模型比较，为后续研究波斯语特有的音素-视位映射关系奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集