WSYue-ASR-eval

Hugging Face2025-09-06 更新2025-09-07 收录

下载链接：

https://huggingface.co/datasets/ASLP-lab/WSYue-ASR-eval

下载链接

链接失效反馈

官方服务：

资源简介：

WSYue-ASR-eval是一个专为评估粤语语音识别系统设计的基准数据集。它通过多轮人工标注提供丰富的标签信息，包括文本转录、情感、年龄和性别等。数据集覆盖了粤语-英语的混合使用以及多领域条件，能够对不同的语音长度进行全面的评估。数据集包含Short和Long两个子集，Short子集的语音时长为0-10秒，Long子集的语音时长为10-30秒，总时长达到11.4小时，包含了多样化的说话人和场景。

创建时间：

2025-08-30

原始信息汇总

WSYue-ASR-eval: 粤语自动语音识别基准数据集

数据集概述

WSYue-ASR-eval是一个专门为评估粤语自动语音识别系统而设计的基准数据集，旨在解决粤语在语音识别中的独特语言特征问题。

主要特征

通过多轮人工标注进行注释
包含丰富的标签：文本转录、情感、年龄和性别
涵盖粤语-英语语码转换和多领域条件
支持不同语音长度的全面评估

数据集子集

子集	时长范围	说话人数量	时长（小时）
短语音	0-10秒	2861	9.46
长语音	10-30秒	838	1.97

总体统计

总时长：11.4小时
说话人多样性：包含多样化的说话人和场景

许可证

Apache 2.0许可证

搜集汇总

数据集介绍

构建方式

在粤语语音识别研究中，为精准捕捉其独特的语言特征，WSYue-ASR-eval数据集通过多轮人工标注构建而成。标注过程细致严谨，不仅涵盖文本转写，还融入了情感、年龄及性别等多维度标签，确保数据的高质量与丰富性。数据来源广泛，覆盖不同领域和语境，包括粤英代码转换现象，以全面反映粤语的实际使用场景。

特点

该数据集显著特点在于其多样性与全面性，囊括了从短语音到长语音的多种时长样本，短语音段0至10秒，长语音段10至30秒，总时长11.4小时。数据涉及2861名不同说话者，涵盖多领域条件和复杂语言现象，如代码转换，为模型评估提供了坚实的数据基础。

使用方法

研究人员可利用该数据集对粤语ASR系统进行综合评估，特别适用于测试模型在不同语音长度、领域及语言现象下的表现。通过加载标准数据分割，用户可进行端到端测试，分析模型在代码转换、情感识别等任务上的性能，推动粤语语音技术的发展。

背景与挑战

背景概述

粤语自动语音识别研究长期面临资源匮乏的困境，其独特的声调系统和语法结构对模型设计提出更高要求。2023年，研究团队WSYue针对这一空白开发了WSYue-ASR-eval基准数据集，该数据集包含11.4小时经过多轮人工标注的粤语语音数据，覆盖2861名发音人的日常对话与特定领域语料。通过标注文本转录、情感、年龄、性别等多维度标签，该数据集有效支撑了粤语-英语语码转换及多领域语音识别的研究，为方言语音处理领域提供了关键评估基准。

当前挑战

粤语语音识别需解决六声九调的音系复杂性及粤英混用语料的处理难题，传统模型在长短语音片段的表现一致性上存在显著差异。数据构建过程中，团队面临方言标注者稀缺导致的标注成本高昂问题，同时需平衡不同年龄层发音人的声学特征差异。多轮人工校验虽提升数据质量，但方言变体与普通话的音素映射关系仍增加了标注复杂度，而跨领域语料的采集亦需克服场景多样性带来的音频质量不一致挑战。

常用场景

经典使用场景

在粤语自动语音识别（ASR）研究中，WSYue-ASR-eval数据集被广泛用于基准测试和模型评估。该数据集通过涵盖不同长度、领域和语言现象的粤语语音，为研究人员提供了一个标准化的评估平台，特别是在处理粤语-英语代码转换和多领域条件时表现出色。

实际应用

该数据集在实际应用中服务于智能助手、语音转录服务和教育工具的开发，特别是在粤语地区。它帮助提升语音识别系统在真实场景中的鲁棒性，例如处理多说话人对话、跨语言交互和多样化领域内容，从而增强用户体验和技术普及。

衍生相关工作

WSYue-ASR-eval催生了多项经典研究，包括基于深度学习的粤语ASR模型优化、代码转换检测算法和多模态语音处理技术。这些工作进一步扩展了数据集的用途，促进了跨语言语音识别领域的创新和标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集