WenetSpeech-Wu

Hugging Face2026-02-01 更新2026-02-02 收录

下载链接：

https://huggingface.co/datasets/ASLP-lab/WenetSpeech-Wu

下载链接

链接失效反馈

官方服务：

资源简介：

WenetSpeech-Wu 是首个大规模吴语方言语音语料库，具有多维度的标注信息。该数据集包含约8,000小时的语音数据，覆盖八个吴语子方言和多种领域。数据标注包括带置信度的转录文本、吴语到普通话的翻译、领域和子方言标签、说话人属性、情感标注以及音频质量评估。数据集采用任务特定的数据质量分级策略，支持多种语音处理任务。WenetSpeech-Wu-Bench 是首个公开的吴语方言语音处理基准，涵盖自动语音识别(ASR)、吴语到普通话的语音翻译(AST)、说话人属性识别、情感识别、文本到语音(TTS)和指令跟随的TTS等任务，为公平评估提供了统一平台。

创建时间：

2026-01-31

原始信息汇总

WenetSpeech-Wu 数据集概述

数据集基本信息

名称: WenetSpeech-Wu
语言: 中文 (zh)
主要任务类别: 自动语音识别 (automatic-speech-recognition)
许可证: Apache 2.0 (apache-2.0)

数据集描述

WenetSpeech-Wu 是首个大规模、多维度标注的吴语方言语音语料库。它旨在为统一的汉语吴方言语音处理生态系统提供数据集、基准和模型。

数据规模与内容

总时长: 约 8,000 小时语音。
方言覆盖: 涵盖八种吴语次方言。
数据来源: 从多样化的领域收集。
标注维度: 包含丰富的元数据和标注，具体包括：
- 带有置信度得分的转录文本。
- 吴语到普通话的翻译。
- 领域和次方言标签。
- 说话人属性。
- 情感标注。
- 音频质量度量。
数据分级: 采用面向特定任务的数据质量分级策略，以支持具有不同质量要求的广泛语音处理任务。

基准测试 (WenetSpeech-Wu-Bench)

WenetSpeech-Wu-Bench 是首个公开的、人工精心策划的吴语方言语音处理基准，涵盖了以下任务，并提供了一个公平评估的统一平台：

自动语音识别 (ASR): 吴方言 ASR（9.75小时，上海话、苏州话和普通话混合语音）。以字错误率 (CER) 评估。
吴语到普通话语音翻译 (AST): 从吴方言到普通话的语音翻译（3千条话语，4.4小时）。以 BLEU 分数评估。
说话人与情感: 吴语语音的说话人性别/年龄预测和情感识别。以分类准确率评估。
语音合成 (TTS): 带有说话人提示的吴方言 TTS（242个句子，12位说话人）。以说话人相似度、CER 和平均意见得分 (MOS) 评估。
指令语音合成 (Instruct TTS): 具有韵律和情感控制的指令跟随 TTS。以自动准确率和主观 MOS 评估。

数据构建流程

该项目提出了一个自动化、可扩展的流程，用于构建具有多维度标注的大规模吴语方言语音数据集。该流程旨在实现高效的数据收集、鲁棒的自动转录和多样化的下游标注。

备注

相关团队还发布了其他方言的大规模语音数据：

WenetSpeech-Yue: 21,800 小时多标签粤语语音数据。
WenetSpeech-Chuan: 10,000 小时多标签川渝方言语音数据。

搜集汇总

数据集介绍

构建方式

在方言语音资源相对稀缺的背景下，WenetSpeech-Wu数据集通过一套自动化、可扩展的流水线构建而成。该流程从多样化的领域和渠道收集原始吴语语音，随后利用先进的自动语音识别技术生成带有置信度分数的转录文本。为了满足多维度下游任务的需求，流水线进一步集成了吴语到普通话的翻译、方言与领域标注、说话人属性识别以及情感与音频质量评估等丰富注释层。整个构建过程采用了任务导向的数据质量分级策略，确保了约8000小时语音数据在异构任务中的适用性与可靠性。

特点

作为首个大规模、多维度标注的吴语语音语料库，WenetSpeech-Wu数据集涵盖了约8000小时的语音，广泛收录了八个吴语次方言的语音样本。其核心特征在于提供了超越传统转录的多层次元数据，包括带置信度的文本、吴普翻译、领域与方言标签、说话人属性、情感标注及音频质量度量。数据集特别设计了任务特定的数据质量分级，以适配从自动语音识别到语音合成等不同质量要求的语音处理任务，为构建统一的吴语语音处理生态系统奠定了坚实的数据基础。

使用方法

该数据集及其配套的WenetSpeech-Wu-Bench基准测试，为吴语语音处理研究提供了全面的评估平台。研究者可通过HuggingFace平台获取数据集，用于训练和评估自动语音识别、语音翻译、说话人与情感识别、文本到语音合成以及指令跟随的语音生成等模型。具体使用涉及加载标准化的数据格式，并参照官方提供的模型推理脚本，例如针对Conformer-U2pp-Wu或Whisper-Medium-Wu等定制化模型，进行模型训练、微调或在基准测试集上进行性能评测，从而推动吴语语音技术的公平比较与持续进步。

背景与挑战

背景概述

在语音技术领域，方言资源的匮乏长期制约着相关研究的深入发展。WenetSpeech-Wu数据集由西北工业大学音频、语音与语言处理组联合多家机构于近期共同构建，作为首个大规模、多维度标注的吴语语音语料库，旨在为吴方言语音处理建立一个统一的生态系统。该数据集涵盖了约8000小时的语音数据，涉及八个吴语次方言，并提供了包括转写置信度、吴语到普通话翻译、领域与方言标签、说话人属性及情感标注在内的丰富元数据。其核心研究问题聚焦于解决吴方言语音识别、合成与理解等任务中高质量数据稀缺的困境，对推动方言语音技术的研究与应用具有里程碑意义。

当前挑战

吴方言语音处理面临的核心挑战在于其复杂的内部变体与缺乏标准化书写系统，这导致自动语音识别与合成任务中模型泛化能力不足。构建WenetSpeech-Wu数据集的过程中，研究团队需克服多重困难：首先，从多样化的公开来源收集大规模、高质量的吴语语音数据本身极具挑战性；其次，为海量语音数据提供准确的多维度标注，尤其是涉及方言转写、翻译及细粒度属性标注时，需要设计高效且鲁棒的自动化流水线，并辅以人工校验以确保质量；此外，如何针对不同下游任务的需求，对数据进行分级处理以适配异构的质量要求，也是数据集构建中的关键难题。

常用场景

经典使用场景

在吴语方言语音处理领域，WenetSpeech-Wu数据集为自动语音识别（ASR）任务提供了经典的应用场景。该数据集包含约8000小时的吴语多维度标注语音，覆盖八个吴语次方言及多种领域，其任务分级质量策略使得研究者能够针对不同质量需求的语音处理任务进行模型训练与评估。经典使用场景包括基于Conformer-U2pp-Wu、Whisper-Medium-Wu等模型的吴语语音识别，这些模型在对话和朗读测试集上展现出卓越性能，为方言语音识别技术的演进奠定了数据基础。

实际应用

在实际应用层面，WenetSpeech-Wu数据集为智能语音交互系统在吴语地区的落地提供了关键支持。基于该数据集训练的模型可应用于方言语音助手、本地化客服系统及教育工具中，实现吴语与普通话之间的实时语音翻译与合成。此外，其情感识别与说话人属性分析功能可增强人机交互的自然性与个性化，服务于医疗辅助、文化遗产保护等社会领域，体现了方言语音技术在现实场景中的广泛价值。

衍生相关工作

围绕WenetSpeech-Wu数据集，衍生出一系列经典的模型与研究。例如，Step-Audio2-Wu-ASR和Step-Audio2-Wu-Und模型在ASR与语音理解任务中取得了领先性能；CosyVoice2-Wu系列模型则在吴语语音合成与指令跟随TTS方面展现出创新成果。这些工作不仅扩展了数据集的适用范围，还推动了多模态语音处理技术的发展，为后续方言语音生态系统的构建提供了重要的技术参考与开源贡献。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集