OpenSTT
收藏arXiv2020-07-27 更新2024-06-21 收录
下载链接:
https://github.com/snakers4/open_stt/
下载链接
链接失效反馈官方服务:
资源简介:
OpenSTT是由圣彼得堡国立信息技术机械与光学大学创建的俄语开放语音转文本(STT/ASR)数据集,是目前最大的多领域俄语数据集,适用于ASR系统训练。该数据集包含约20,000小时的转录音频数据,涵盖广播、公共演讲、书籍、YouTube、电话通话、地址和讲座等多个领域。数据集的创建过程涉及使用未知ASR模型或非专业注释(如YouTube字幕)进行转录,而手动转录仅限于三个验证数据集。OpenSTT主要用于解决俄语环境下的自动语音识别问题,特别是在评估不同端到端ASR模型性能方面发挥重要作用。
OpenSTT is an open Russian speech-to-text (STT/ASR) dataset developed by ITMO University, formally the Saint Petersburg National Research University of Information Technologies, Mechanics and Optics. It is currently the largest multi-domain Russian language dataset tailored for automatic speech recognition (ASR) system training. The dataset contains approximately 20,000 hours of transcribed audio data covering multiple domains including broadcasting, public speeches, books, YouTube content, telephone calls, addresses, and lectures. The dataset was created using transcriptions generated by unknown ASR models or non-professional annotations such as YouTube subtitles, with manual transcriptions limited to only three validation datasets. OpenSTT is primarily intended to solve automatic speech recognition problems in the Russian language environment, and it plays a vital role in evaluating the performance of various end-to-end ASR models.
提供机构:
圣彼得堡国立信息技术机械与光学大学
创建时间:
2020-06-15
搜集汇总
数据集介绍

构建方式
在俄语语音识别领域,数据资源的稀缺性长期制约着端到端模型的发展。OpenSTT数据集的构建旨在填补这一空白,其原始音频数据来源于多个公开领域,包括广播、公开演讲、有声读物、YouTube视频、电话录音等,总计约两万小时的语音材料。构建过程中,研究者从这些多领域数据中筛选出具备验证集的三个核心领域——电话通话、YouTube视频和书籍朗读,并剔除了转录错误的样本,最终获得了约2926小时的训练数据。为了平衡不同领域的数据量,对电话通话数据进行了三倍速扰动处理,同时将语音片段长度限制在2至20秒之间,以确保训练过程的稳定性和计算效率。
特点
OpenSTT数据集作为目前最大的开源俄语语音识别资源,其显著特点体现在多领域覆盖与大规模数据上。数据集涵盖了电话通话、YouTube视频和书籍朗读等多样化的语音场景,这种多领域特性使得模型能够适应不同语境和噪声条件下的识别任务。数据集中包含大量非专业转录文本,如自动语音识别结果或用户生成的字幕,这为模型提供了丰富的真实世界语音变体。此外,数据集为三个验证集提供了人工校对转录,确保了评估的准确性和可靠性。其规模之大为端到端语音识别模型的训练提供了充足的数据支持,有助于提升模型在复杂俄语语音环境下的泛化能力。
使用方法
在语音识别研究中,OpenSTT数据集主要用于训练和评估端到端自动语音识别系统。研究者可以基于该数据集构建多种端到端模型架构,如联合CTC/注意力机制、RNN转换器和Transformer模型。使用过程中,通常将音频数据转换为80维对数梅尔滤波器组系数及三维音高特征作为输入,目标单元可选择字符或子词。数据集提供的三个验证集——电话通话、YouTube视频和书籍朗读——可用于系统性能的跨领域评估,以词错误率为主要指标。此外,数据集支持与混合系统进行对比研究,用户可结合外部语言模型进行假设重打分,以探索不同解码策略对识别效果的影响。
背景与挑战
背景概述
OpenSTT数据集由俄罗斯研究团队于2019年发布,旨在为俄语自动语音识别领域提供大规模、多领域的开源语音数据资源。该数据集由ITMO大学和STC-innovations有限公司的研究人员共同构建,核心研究问题聚焦于解决俄语语音识别任务中高质量训练数据稀缺的瓶颈。作为目前最大的开源俄语语音数据集,OpenSTT涵盖了电话通话、公开演讲、书籍朗读、YouTube视频等多种语音场景,总计约20,000小时的音频数据,显著推动了俄语端到端语音识别系统的研究与发展。该数据集的建立为俄语语音识别领域提供了关键的实验基础,促进了端到端模型与混合模型的性能比较,并激发了多语言语音技术研究的广泛兴趣。
当前挑战
OpenSTT数据集面临的挑战主要体现在两个方面。在领域问题层面,该数据集旨在解决俄语语音识别任务中数据资源匮乏的难题,但不同语音领域的数据分布不均,例如电话通话数据量远少于YouTube和书籍领域,导致模型在特定场景下的泛化能力受限。构建过程中的挑战则源于数据质量与标注的复杂性,大部分音频转录来源于未知自动语音识别模型的输出或非专业标注,仅少数验证集采用人工转录,这引入了噪声与误差。此外,数据清洗与筛选过程需剔除错误转录的样本,并限制音频时长与字符数以稳定训练,这些步骤增加了数据预处理的难度与资源消耗。
常用场景
经典使用场景
在俄语语音识别领域,OpenSTT数据集作为最大规模的开源俄语语音数据资源,其经典使用场景聚焦于端到端自动语音识别系统的训练与评估。该数据集涵盖电话通话、YouTube视频和有声读物等多领域音频,为研究者提供了丰富的真实语音样本,用以探索不同端到端架构在俄语环境下的性能表现。通过对比联合CTC/注意力、RNN-Transducer及Transformer等模型,OpenSTT成为验证端到端方法在俄语语音识别任务中有效性的关键基准。
实际应用
OpenSTT数据集的实际应用场景广泛涉及俄语语音技术的商业化与公共服务领域。基于该数据集训练的语音识别系统可部署于智能客服、电话语音转写、在线视频字幕生成及有声读物转录等实际任务中。其多领域数据特性确保了模型在不同语音环境下的适应性,为俄语地区的教育、媒体和通信行业提供了高效的语音处理解决方案,显著提升了语音交互系统的准确性与可用性。
衍生相关工作
围绕OpenSTT数据集,衍生了一系列经典的俄语语音识别研究工作。例如,Iakushkin等人基于Mozilla DeepSpeech框架构建了端到端识别系统;Speech Technology Center Ltd利用混合方法开发了电话语音识别方案。此外,该数据集的发布还激发了如ESPnet工具链中俄语配方、以及结合可分离卷积与CTC的高效模型等创新探索。这些工作共同推动了俄语语音识别技术的开源生态发展,为后续研究提供了重要的算法与工程参考。
以上内容由遇见数据集搜集并总结生成



