five

yodas_owsmv4

收藏
Hugging Face2025-06-03 更新2025-06-04 收录
下载链接:
https://huggingface.co/datasets/espnet/yodas_owsmv4
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了跨越75种语言的166,000小时的多种语言语音,被分割成30秒的长格式音频片段。数据来源于YODAS2数据集,该数据集基于大规模的网络爬取内容。由于网络源数据的性质,原始的YODAS2数据集可能包含不准确的语言标签和音频-文本对不齐的情况。为了解决这一问题,我们开发了一个可扩展的数据清洗管道,使用公开可用的工具包,从而形成原始数据集的一个精选子集。这个清洗后的数据集是我们OWSM v4模型训练数据的核心部分,结合现有的OWSM数据,这些模型在多种语言自动语音识别基准测试中的表现显著优于以前版本。
提供机构:
ESPnet
创建时间:
2025-06-03
搜集汇总
数据集介绍
main_image_url
构建方式
在语音识别研究领域,数据质量对模型性能具有决定性影响。YODAS_OWSMv4数据集源于YODAS2原始语料库,通过多阶段清洗流程构建而成。首先采用CTC分割算法对长音频进行重新对齐,修正时间戳误差;随后利用公开语言识别模型对音频和文本进行双重验证,剔除标签不一致的样本;最终基于语言相关的CTC置信度分位数阈值,保留前90%高质量数据,形成包含166,000小时、覆盖75种语言的语音文本对齐语料。
使用方法
遵循ESPnet语音识别框架的数据规范,数据集以Kaldi格式组织音频文件与文本标注。用户可通过wav.scp文件索引音频流,text文件提供带时间戳的多语句转录,text.ctc则提供去时间戳的纯净文本。 utterance ID采用五段式编码结构,支持与原始YODAS2数据的双向映射。建议优先选用yodas0.10高质量子集进行模型训练,该版本经实证能显著提升多语言语音识别性能,具体可通过ESPnet的s2t1配方实现端到端训练流程。
背景与挑战
背景概述
随着语音处理技术的飞速发展,构建高质量的多语言语音识别模型成为研究热点。YODAS_OWSMv4数据集由卡内基梅隆大学WavLab团队于2025年发布,作为开放Whisper风格语音模型(OWSM)系列的第四代训练数据,其核心目标在于通过公开数据复现并优化OpenAI Whisper模型的训练范式。该数据集从YODAS2原始语料中精选出166,000小时涵盖75种语言的语音文本对齐数据,通过严格的数据清洗流程显著提升了多语言语音识别任务的性能,相关成果荣获INTERSPEECH 2025最佳学生论文奖,为开源语音基础模型的研究提供了重要基准。
当前挑战
在语音识别领域,网络爬取数据常存在语言标签错误与音文对齐偏差等固有噪声,直接影响模型泛化能力。YODAS_OWSMv4构建过程中面临三重挑战:首先需通过CTC分割算法重构长音频与转录文本的时间对齐关系;其次利用声学与文本双通道语言识别模型过滤标签不一致的语料;最后基于语言相关的CTC置信度分位数阈值实现质量分级筛选。这些技术难点共同指向网络数据质量控制的本质问题,而该数据集的清洗方法论为大规模多模态数据治理提供了可复用的范式。
常用场景
经典使用场景
在语音技术领域,YODAS_OWSMv4数据集作为高质量多语言语音数据的代表,主要用于训练和评估开放 Whisper 风格语音模型。该数据集包含166,000小时的语音数据,覆盖75种语言,通过严格的数据清洗流程确保了语音与文本的对齐精度。研究人员利用其进行自动语音识别系统的开发,尤其在多语言环境下提升模型的泛化能力和鲁棒性。数据集的分段设计(每段不超过30秒)与 Whisper 训练范式高度契合,为语音识别研究提供了标准化基准。
解决学术问题
该数据集有效解决了语音识别研究中数据质量参差不齐的难题。传统网络爬取数据常存在语言标签错误、音频文本不对齐等噪声,严重制约模型性能。通过三阶段清洗流程(重分段、语言识别过滤、CTC置信度筛选),数据集显著提升了多语言语音数据的纯净度。这一进展不仅降低了噪声对下游任务的影响,还为构建可靠的多语言语音基础模型提供了数据支撑,推动了语音技术领域的可复现性与开放性研究。
实际应用
在实际应用中,YODAS_OWSMv4支撑的语音模型已服务于多语言转录、实时翻译等场景。其高质量数据训练的OWSM v4模型在工业级语音系统中表现出色,例如在跨语言会议记录、教育内容自动化字幕生成等领域。数据集覆盖的75种语言尤其适用于全球化企业的语音交互系统,显著提升了对低资源语言的支持能力。此外,其开源特性允许中小企业低成本部署高精度语音解决方案,促进了技术普惠。
数据集最近研究
最新研究方向
在语音识别领域,开放语音模型的研究正朝着数据质量优化与规模扩展的方向深化。OWSM v4作为首个完全开源的Whisper风格语音基础模型,通过多阶段数据清洗流程显著提升了多语言语音识别的鲁棒性。该模型采用CTC分割算法重对齐音频文本,结合语言识别过滤和置信度筛选,有效解决了网络来源数据中标签噪声和不对齐问题。其166,000小时的多语言语料覆盖75种语言,在INTERSPEECH 2025获奖研究中展现出与工业级模型相媲美的性能,推动了开源语音科学的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作