WenetSpeech-Chuan
收藏arXiv2025-09-23 更新2025-09-24 收录
下载链接:
https://github.com/wenet-eval/wenetspeech-chuan
下载链接
链接失效反馈官方服务:
资源简介:
WenetSpeech-Chuan是一个大规模的四川话语音语料库,包含超过10,000小时的丰富标注语音数据,源自多样化的现实世界领域。该数据集由Chuan-Pipeline构建,这是一个专门为从原始四川话语音数据创建高质量语音资源而设计的全面数据处理器框架。WenetSpeech-Chuan不仅降低了方言语音处理研究的门槛,还在推动人工智能公平性和减少语音技术中的偏见方面发挥着关键作用。
WenetSpeech-Chuan is a large-scale Sichuan dialect speech corpus containing over 10,000 hours of richly annotated speech data sourced from diverse real-world domains. This dataset is constructed by Chuan-Pipeline, a comprehensive data processing framework specifically designed for creating high-quality speech resources from raw Sichuan dialect speech data. WenetSpeech-Chuan not only lowers the barrier to entry for dialect speech processing research, but also plays a critical role in advancing AI fairness and mitigating bias in speech technologies.
提供机构:
西北工业大学计算机科学学院音频、语音与语言处理小组(ASLP@NPU)
创建时间:
2025-09-23
搜集汇总
数据集介绍
构建方式
在方言语音资源稀缺的背景下,WenetSpeech-Chuan采用创新的Chuan-Pipeline框架进行系统化构建。该流程从在线视频平台采集原始音频,通过语音活动检测分割为5-25秒片段,利用说话人聚类技术分配唯一标识,并集成预训练模型对性别、年龄、情感等多维度副语言信息进行标注。针对四川方言特点,设计LLM-GER转录框架融合三个ASR系统输出,借助大语言模型进行方言表达规范化处理,最终通过多模态标点预测模型实现文本与语音韵律的对齐。
特点
作为目前最大规模的开源四川方言语音库,该数据集涵盖超过10,000小时的真实场景语音,覆盖短视频、娱乐直播等九大领域,其中短视频占比52.83%最具代表性。数据质量呈现典型的长尾分布,WVMOS评分集中於3.0-3.5区间,平衡了语音清晰度与真实环境复杂性。数据集创新性地引入置信度分级机制,提供3,714小时强标注数据和6,299小时弱标注数据,支持从监督学习到半监督学习的多范式研究。
使用方法
该数据集为方言语音处理研究提供标准化基准,用户可通过分层采样策略利用其多领域数据训练端到端ASR模型,其中强标注数据适用于有监督训练,弱标注数据可结合自训练算法提升模型鲁棒性。针对TTS任务,数据集提供的韵律标注信息支持构建具有方言特色的声学模型,而多说话人属性标签便于开发个性化语音合成系统。评估阶段建议采用官方发布的WSC-Eval-ASR和WSC-Eval-TTS基准集,其包含经人工校验的易难度分级样本,可全面评估模型在方言场景下的泛化能力。
背景与挑战
背景概述
随着语音技术的快速发展,大规模开源数据集在推动自动语音识别与语音合成研究方面发挥了关键作用。然而,方言语音数据的稀缺性严重制约了相关技术的普及与优化,尤其对于使用人口超过1.2亿的四川方言而言,其音系、词汇和语法与标准普通话存在显著差异,导致主流语音系统在方言场景下性能急剧下降。为应对这一挑战,西北工业大学ASLP实验室联合多家机构于2025年发布了WenetSpeech-Chuan语料库,该库包含超过1万小时的四川方言语音数据,涵盖短视频、娱乐直播等多元场景,并创新性地提出了专用于方言数据处理的Chuan-Pipeline框架。这一资源不仅填补了方言语音数据的空白,也为促进人工智能技术公平性提供了重要支撑。
当前挑战
在方言语音处理领域,四川方言语音识别与合成面临两大核心挑战:一是方言与标准普通话的发音差异导致声学模型适配困难,即使轻微口音也会引发系统性能衰减;二是方言文本与语音的对齐复杂度高,传统 punctuation 预测方法难以准确捕捉实际停顿规律。在语料构建过程中,团队需克服原始音频质量参差不齐的问题,通过多阶段质量控制流程筛选有效数据;同时,针对方言表达的独特性,开发了融合多ASR系统输出的LLM-GER转录校正框架,显著提升了转录准确率。此外,如何平衡数据规模与标注精度,以及确保多维度标注(如年龄、性别、情感)的一致性,亦是构建过程中持续优化的关键问题。
常用场景
经典使用场景
在方言语音处理领域,WenetSpeech-Chuan数据集为自动语音识别和文本转语音系统提供了大规模训练资源。该数据集通过覆盖短视频、娱乐直播等多样化真实场景,使模型能够学习四川方言的独特音韵特征和表达习惯。实验表明,基于该数据训练的模型在方言识别准确率和合成自然度方面均达到开源系统领先水平。
实际应用
在智能客服系统中,该数据集支撑的方言语音技术能提升川渝地区用户的交互体验;在线教育平台可借助其开发方言发音评估工具。公共服务领域通过集成方言TTS能力,实现政策信息的本土化传播。这些应用显著降低了数字鸿沟,体现了技术普惠价值。
衍生相关工作
基于该数据集训练的Paraformer-WSC模型在方言ASR任务中刷新了性能基准,CosyVoice2-WSC则成为开源方言TTS的重要基线。研究团队进一步提出的LLM-GER错误校正框架,被扩展应用于其他方言的语音转录优化。这些工作共同推动了方言语音技术生态的完善。
以上内容由遇见数据集搜集并总结生成



