WenetSpeech-Wu-Bench

Hugging Face2026-02-01 更新2026-02-02 收录

下载链接：

https://huggingface.co/datasets/ASLP-lab/WenetSpeech-Wu-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

WenetSpeech-Wu-Bench 是首个公开的、手动整理的吴语语音处理基准数据集，旨在为吴语语音处理任务提供一个统一的公平评估平台。数据集涵盖多个任务：1) 吴语自动语音识别（ASR），包含 9.75 小时的上海话、苏州话和普通话混合语音，以字错误率（CER）评估；2) 吴语到普通话的语音翻译（AST），包含 3,000 条语音（4.4 小时），以 BLEU 分数评估；3) 说话人属性（性别/年龄）预测和情感识别，以分类准确率评估；4) 吴语文本到语音（TTS），包含 242 个句子和 12 位说话人，以说话人相似度、CER 和平均意见分数（MOS）评估；5) 指令式 TTS，支持韵律和情感控制，以自动准确率和主观 MOS 评估。数据集可通过指定链接下载，采用 Apache-2.0 许可证。

创建时间：

2026-01-29

原始信息汇总

WenetSpeech-Wu-Bench 数据集概述

数据集简介

WenetSpeech-Wu-Bench 是首个公开的、手动整理的吴语方言语音处理基准测试集，涵盖自动语音识别（ASR）、吴语到普通话的语音翻译（AST）、说话人属性识别、情感识别、文本到语音（TTS）以及指令跟随式 TTS 等多个任务，旨在提供一个统一的平台以进行公平评估。

任务与评估指标

自动语音识别（ASR）：针对吴语方言（包含上海话、苏州话以及与普通话的混合语音），数据时长为 9.75 小时，评估指标为字错误率（CER）。
吴语到普通话语音翻译（Wu→Mandarin AST）：将吴语方言翻译为普通话，包含 3,000 条话语，总时长 4.4 小时，评估指标为 BLEU 分数。
说话人属性与情感识别：在吴语语音上进行说话人性别/年龄预测以及情感识别，评估指标为分类准确率。
文本到语音（TTS）：吴语方言的文本到语音合成，包含 12 位说话人的 242 个句子，评估指标包括说话人相似度、CER 和平均意见得分（MOS）。
指令跟随式 TTS：支持韵律和情感控制的指令跟随式文本到语音合成，评估指标包括自动准确率和主观 MOS。

数据下载

完整的 WenetSpeech-Wu 数据集可通过以下链接获取：https://huggingface.co/datasets/ASLP-lab/WenetSpeech-Wu。

许可信息

本数据集采用 Apache-2.0 许可证。

搜集汇总

数据集介绍

构建方式

在吴语语音处理领域，构建高质量基准数据集面临诸多挑战。WenetSpeech-Wu-Bench通过精心设计的数据采集与标注流程，系统性地整合了吴语方言的多种语音任务。该数据集以WeNetSpeech-Wu为数据源，采用人工筛选与专业标注相结合的方式，确保了数据的准确性与代表性。构建过程涵盖了语音识别、语音翻译、说话人属性分析、情感识别以及语音合成等多个维度，并特别考虑了上海话、苏州话等方言变体及与普通话的语码混合现象，从而为吴语语音技术研究提供了全面且可靠的评估基础。

特点

作为首个公开可用的吴语方言语音处理基准，WenetSpeech-Wu-Bench展现出鲜明的特色。其覆盖任务广泛，不仅包含传统的自动语音识别与语音合成，还拓展至语音翻译、说话人性别与年龄预测、情感识别以及指令跟随的语音合成等前沿方向。数据集在方言多样性上尤为突出，纳入了上海话、苏州话等代表性吴语变体，并包含与普通话的混合语音，真实反映了吴语地区的语言使用场景。此外，每个任务均配备了明确的自动与主观评估指标，如字错误率、BLEU值、分类准确率及平均意见得分，为模型性能提供了多维度的公平比较平台。

使用方法

研究人员可利用该数据集对吴语语音处理模型进行系统化评估与比较。使用前，需从指定链接下载完整的WenetSpeech-Wu数据。针对自动语音识别任务，开发者可在提供的9.75小时吴语及混合语音数据上训练或测试模型，并以字错误率作为核心评估指标。对于吴语到普通话的语音翻译，可使用3千条语句数据，依据BLEU分数衡量翻译质量。在说话人属性与情感分析方面，数据集支持基于分类准确率的模型评测。语音合成及其指令跟随变体则提供了包含12位说话人的242句数据，评估时可结合说话人相似度、字错误率及主观平均意见得分进行综合判断，从而实现技术路线的客观对比与优化。

背景与挑战

背景概述

在语音技术领域，方言语音处理一直是极具价值的研究方向，尤其对于汉语方言而言，其丰富的语音变体和复杂的语言结构对现有技术提出了严峻考验。WenetSpeech-Wu-Bench数据集于2024年由ASLP实验室发布，作为首个公开的、经过人工精心整理的吴方言语音处理基准，该数据集旨在系统性地评估自动语音识别、语音翻译、说话人属性分析、情感识别及语音合成等多项任务。其核心研究问题聚焦于解决吴方言（如上海话、苏州话）及其与普通话的语码混合场景下的语音处理难题，为方言语音技术的公平比较与性能提升提供了标准化平台，对推动多方言语音人工智能的发展具有重要影响力。

当前挑战

该数据集致力于应对吴方言语音处理中的多重挑战：在领域问题层面，吴方言与普通话在音系、词汇及语法上存在显著差异，且常出现语码混合现象，这导致传统基于普通话的语音模型在方言识别、翻译与合成中表现不佳，尤其在语音翻译和情感识别任务中，如何准确捕捉方言特有的韵律和语义信息是一大难点。在构建过程中，挑战同样突出，包括吴方言语音数据的稀缺性、高质量标注的困难——需要精通方言的专家进行人工校对，以及多任务基准的统一设计，需平衡不同任务（如ASR、TTS、情感分析）的数据规模与评估指标，确保基准的全面性与公平性。

常用场景

经典使用场景

在方言语音处理领域，WenetSpeech-Wu-Bench作为首个公开的吴语方言基准数据集，其经典使用场景聚焦于多任务语音技术评估。该数据集通过提供涵盖自动语音识别、语音翻译、说话人属性分析、情感识别及语音合成等任务的标准化测试集，为研究人员构建了一个统一的评估平台。在吴语方言资源相对匮乏的背景下，这一基准使得不同模型在相同条件下进行公平比较成为可能，尤其适用于评估模型在方言与普通话混合语音场景下的性能表现。

衍生相关工作

围绕该数据集，已衍生出一系列经典研究工作。在自动语音识别方向，研究者利用其评估了多种端到端模型在吴语方言上的识别效率与鲁棒性。语音翻译任务则催生了针对低资源方言到普通话的跨语言转换模型。在语音合成领域，基于数据集的说话人提示与指令跟随合成技术，推动了可控性、个性化方言TTS的发展。这些工作共同深化了对方言语音计算特性的理解，并为多模态、多任务方言处理框架的构建提供了参考范例。

数据集最近研究