five

WenetSpeech-Chuan

收藏
github2025-09-10 更新2025-09-16 收录
下载链接:
https://github.com/DaiYvhang/WenetSpeech-Chuan
下载链接
链接失效反馈
官方服务:
资源简介:
一个大规模多标签川渝汉语方言语料库,用于语音识别和合成

A large-scale multi-label Sichuan-Chongqing Chinese dialect corpus for speech recognition and synthesis
创建时间:
2025-09-05
原始信息汇总

WenetSpeech-Chuan 数据集概述

数据集基本信息

  • 名称:WenetSpeech-Chuan
  • 类型:大规模多标签川渝方言语音语料库
  • 用途:语音识别与语音合成研究
  • 规模:10,000小时
  • 语言:川渝方言(中文方言)
  • 数据格式:元数据存储为单一JSON文件

数据内容与特征

  • 标注内容:音频路径、时长、文本置信度、说话人身份、信噪比(SNR)、DNSMOS评分、年龄、性别及字符级时间戳
  • 覆盖领域:短视频、娱乐、直播、纪录片、有声书、戏剧、访谈、新闻等十个领域
  • 特色:目前最大的开源川渝方言语音资源,包含丰富标注信息

数据获取

  • 主数据集:https://huggingface.co/datasets/ASLP-lab/WSChuan-Train
  • 评估基准
    • ASR评估集:https://huggingface.co/datasets/ASLP-lab/WSChuan-Eval
    • TTS评估集:https://huggingface.co/datasets/ASLP-lab/WSChuan-Eval
  • 预训练模型
    • ASR模型:https://huggingface.co/ASLP-lab/WSChuan-ASR
    • TTS模型:https://huggingface.co/ASLP-lab/WSChuan-TTS

评估基准

ASR评估集(WSChuan-ASR-eval)

  • 标注方式:多轮人工标注
  • 标注内容:文本转录、情绪、年龄、性别标签
  • 子集划分
    • 短音频(0-10秒):8,051条语句,8.50小时
    • 长音频(10-30秒):690条语句,2.61小时
  • 场景覆盖:多样化真实川渝场景

TTS评估集(WSChuan-TTS-eval)

  • 基准类型:零样本粤语TTS基准
  • 子集构成
    • Base子集:1,000个来自Common Voice的样本,用于评估真实场景性能
    • Coverage子集:结合人工筛选和LLM生成文本,覆盖多领域内容
  • 语言现象:包含多音字、变调、语码转换、专有名词和数字等多样化语言现象

数据处理流程(Chuan-Pipe)

  • 音频采集:从多领域长录音中通过VAD分割为短片段
  • 说话人属性标注:使用pyannote进行说话人日志分析,Vox-Profile进行年龄和性别估计
  • 语音质量标注
    • Brouhaha:信噪比(SNR)评估
    • DNSMOS:感知质量(MOS)评分
    • 带宽检测:频谱覆盖分析
  • 语音识别:采用SenseVoice、TeleASR和Whisper三种模型进行多系统标注
  • 后处理:基于LLM生成错误校正的ROVER方法(LLM-GER),利用Qwen3模型整合多ASR系统输出

相关资源

  • 论文:https://www.arxiv.org/abs/2508.09600
  • 演示页面:https://llh666521.github.io/WenetSpeech-Yue/
  • Huggingface空间:https://huggingface.co/spaces/ASLP-lab/WenetSpeech-Chuan

联系方式

  • 邮箱:lhli@mail.nwpu.edu.cn 或 gzhao@mail.nwpu.edu.cn
搜集汇总
数据集介绍
main_image_url
构建方式
在方言语音资源构建领域,WenetSpeech-Chuan数据集通过系统化流程采集多领域长音频数据,涵盖故事讲述、戏剧、评论等丰富场景。运用语音活动检测技术将长音频切分为 utterance 级别片段,并集成说话人日志、年龄性别估计工具进行说话人属性标注。通过多模型自动语音识别系统生成初始转录,再结合大语言模型驱动的错误修正算法LLM-GER,有效提升四川方言转录的准确性。
特点
作为目前最大规模的开源四川方言语音语料库,该数据集具有万小时级的语音数据量,配备精细的多维度标注体系。其标注信息包括音频路径、时长、文本置信度、说话人身份及人口统计属性,同时提供信噪比、DNSMOS质量评分和字符级时间戳。语料覆盖短视频、娱乐直播、纪录片等十个领域,充分体现了四川方言在真实场景中的语言变体和语用特征。
使用方法
研究者可通过Hugging Face平台获取数据集的训练集与评估集,分别支持自动语音识别和文本转语音任务的模型训练与评测。数据集采用标准化JSON格式存储元数据,便于直接加载与处理。针对不同任务需求,官方提供了基于Paraformer等架构的预训练模型,用户可通过微调流程适配特定应用场景,亦可利用完整标注信息开展多说话人建模和语音质量分析研究。
背景与挑战
背景概述
随着方言保护与智能语音技术的深度融合,川渝方言作为西南官话的重要分支,其语音资源建设成为学术与工业界共同关注的焦点。WenetSpeech-Chuan由西北工业大学音频语音与语言处理研究组联合多家机构于2024年推出,旨在构建大规模多标签川渝方言语音语料库,填补该方言在自动语音识别与合成研究中的数据空白。该数据集包含一万小时高质量语音,涵盖短视频、娱乐、直播等十类领域,并集成说话人属性、信号质量等多维度标注,为方言语音计算模型提供关键数据支撑。
当前挑战
川渝方言语音识别面临音系复杂性挑战,包括声调变异、连续变调及与普通话的语码转换现象,传统模型对此类语言现象建模能力有限。数据构建过程中需解决多源音频质量异构性问题,通过集成VAD分割、说话人日记及多系统ASR标注流程确保数据一致性。针对方言转录误差,研究团队提出LLM-GER融合算法,利用大语言模型的语义理解能力纠正常规ASR系统的方言识别错误,显著提升转录准确率与语义完整性。
常用场景
经典使用场景
在方言语音处理研究中,WenetSpeech-Chuan数据集为川渝方言的自动语音识别与合成提供了重要支撑。该数据集涵盖短视频、娱乐直播、纪录片等十种领域的长短语音样本,其多轮人工标注与丰富元数据特性使其成为训练和评估方言ASR模型的基准资源。研究者常利用其万小时规模的语音语料开发鲁棒的声学模型,并通过其划分的短长语音子集全面测试模型在不同时长语音上的表现。
衍生相关工作
基于该数据集衍生了多项创新研究,包括采用LLM-GER方法的语音转录纠错系统,显著提升了方言语音识别的准确率。在WSChuan-eval基准测试体系下,产生了Paraformer等模型的方言适配版本,推动了轻量化方言ASR模型的发展。同时催生了结合说话人属性标注的多说话人语音合成研究,为个性化方言语音生成提供了技术路径。
数据集最近研究
最新研究方向
在方言语音处理领域,WenetSpeech-Chuan作为大规模川渝方言语料库,正推动多模态方言计算的前沿探索。当前研究聚焦于融合大语言模型的智能纠错机制,通过LLM-GER框架整合多系统ASR输出,显著提升方言音素与声学特征的识别精度。该数据集支撑的跨方言语音合成与识别技术,正逐步解决方言保护与数字化传承的核心难题,为构建方言智能生态系统提供关键数据基石。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作