five

WenetSpeech-Yue

收藏
arXiv2025-09-04 更新2025-09-06 收录
下载链接:
https://github.com/BYVoid/OpenCC
下载链接
链接失效反馈
官方服务:
资源简介:
WenetSpeech-Yue是一个大规模的粤语语音语料库,包含了21,800小时的语音数据,跨越了10个不同的领域,并带有丰富的多维度标注,包括ASR转写、文本置信度、说话者身份、年龄、性别、语音质量评分等。该数据集的创建旨在解决现有粤语语音数据集规模小、风格和标签多样性不足的问题,为语音理解和生成任务提供了高质量的资源。数据集的创建过程采用了WenetSpeech-Pipe这一集成流程,该流程包括音频采集、说话者属性标注、语音质量标注、自动语音识别、文本后处理和识别器输出投票等六个模块,以确保语料库的多样性和高质量标注。WenetSpeech-Yue数据集的发布,为粤语语音理解和生成领域的研究和应用提供了重要的数据支持。

WenetSpeech-Yue is a large-scale Cantonese speech corpus containing 21,800 hours of speech data spanning 10 distinct domains, with rich multi-dimensional annotations including ASR transcriptions, text confidence scores, speaker identity, age, gender, speech quality ratings and more. This dataset was developed to address the shortcomings of existing Cantonese speech datasets, such as small scale, insufficient style and label diversity, and provides high-quality resources for speech understanding and generation tasks. The construction of this dataset adopts the WenetSpeech-Pipe integrated pipeline, which includes six modules: audio collection, speaker attribute annotation, speech quality annotation, automatic speech recognition, text post-processing, and recognizer output voting, to ensure the diversity and high-quality annotations of the corpus. The release of the WenetSpeech-Yue dataset provides important data support for research and applications in the field of Cantonese speech understanding and generation.
提供机构:
西北工业大学
创建时间:
2025-09-04
原始信息汇总

OpenCC(開放中文轉換)数据集概述

简介

OpenCC(Open Chinese Convert,開放中文轉換)是一个开源项目,用于在简体中文、繁体中文和日本新字体(Shinjitai)之间进行转换。该项目支持字符级别和词汇级别的转换,包括字符变体转换以及中国大陆、台湾和香港的地区习惯用词转换。请注意,这不是普通话与粤语等方言之间的翻译工具。

主要特点

  • 严格区分「一简对多繁」和「一简对多异」。
  • 完全兼容异体字,支持动态替换。
  • 严格审校一简对多繁词条,遵循「能分则不合」原则。
  • 支持中国大陆、台湾、香港异体字和地区习惯用词转换(例如「裏」与「裡」、「鼠标」与「滑鼠」)。
  • 词库和函数库完全分离,允许自由修改、导入和扩展。

安装方式

包管理器

  • Debian:https://tracker.debian.org/pkg/opencc
  • Ubuntu:https://launchpad.net/ubuntu/+source/opencc
  • Fedora:https://packages.fedoraproject.org/pkgs/opencc/opencc/
  • Arch Linux:https://archlinux.org/packages/extra/x86_64/opencc/
  • macOS:https://formulae.brew.sh/formula/opencc
  • Bazel:https://registry.bazel.build/modules/opencc
  • Node.js:https://npmjs.org/package/opencc
  • Python:https://pypi.org/project/OpenCC/

预编译版本

  • Windows (x86_64):https://ci.appveyor.com/api/projects/Carbo/opencc/artifacts/OpenCC.zip?branch=master&job=Environment:%20nodejs_version=none;%20Platform:%20x64
  • Windows (x86):https://ci.appveyor.com/api/projects/Carbo/opencc/artifacts/OpenCC.zip?branch=master&job=Environment:%20nodejs_version=none;%20Platform:%20x86

使用方法

在线演示

https://opencc.byvoid.com/(注意:禁止程序化调用)

编程接口示例

Node.js

javascript const OpenCC = require(opencc); const converter = new OpenCC(s2t.json); converter.convertPromise("汉字").then(converted => { console.log(converted); // 漢字 });

Python

python import opencc converter = opencc.OpenCC(s2t.json) converter.convert(汉字) # 漢字

C++

c++ #include "opencc.h" int main() { const opencc::SimpleConverter converter("s2t.json"); converter.Convert("汉字"); // 漢字 return 0; }

C

c #include "opencc.h" int main() { opencc_t opencc = opencc_open("s2t.json"); const char* input = "汉字"; char* converted = opencc_convert_utf8(opencc, input, strlen(input)); // 漢字 opencc_convert_utf8_free(converted); opencc_close(opencc); return 0; }

配置文件

  • s2t.json:简体中文到繁体中文
  • t2s.json:繁体中文到简体中文
  • s2tw.json:简体中文到台湾正体
  • tw2s.json:台湾正体到简体中文
  • s2hk.json:简体中文到香港繁体
  • hk2s.json:香港繁体到简体中文
  • s2twp.json:简体中文到台湾正体(含台湾常用词汇)
  • tw2sp.json:台湾正体到简体中文(含中国大陆常用词汇)
  • t2tw.json:繁体中文(OpenCC标准)到台湾正体
  • hk2t.json:香港繁体到繁体中文(OpenCC标准)
  • t2hk.json:繁体中文(OpenCC标准)到香港繁体
  • t2jp.json:繁体中文(旧字体)到日文新字体
  • jp2t.json:日文新字体到繁体中文(旧字体)
  • tw2t.json:台湾正体到繁体中文(OpenCC标准)

构建与测试

构建方式

  • 使用CMake(Linux、macOS、Windows Visual Studio)
  • 使用Bazel

测试命令

  • Linux & macOS:make test
  • Windows Visual Studio:test.cmd

基准测试

  • 命令:make benchmark
  • 包含初始化时间和转换性能测试

使用项目

部分使用OpenCC的项目包括:

  • ibus-pinyin
  • fcitx
  • rimeime
  • libgooglepinyin
  • ibus-libpinyin
  • alfred-chinese-converter
  • GoldenDict

许可证

Apache License 2.0

第三方库

  • darts-clone(BSD License)
  • marisa-trie(BSD License)
  • tclap(MIT License)
  • rapidjson(MIT License)
  • Google Test(BSD License)

版本历史

  • 详细变更记录:https://github.com/BYVoid/OpenCC/blob/master/NEWS.md

相关链接

  • 项目详细介绍:https://github.com/BYVoid/OpenCC/wiki/%E7%B7%A3%E7%94%B1
  • 现代汉语常用简繁一对多字义辨析表:http://ytenx.org/byohlyuk/KienxPyan

贡献者

包括BYVoid、佛振、Peng Huang、LI Daobing等众多开发者(完整列表见README文件)。

搜集汇总
数据集介绍
main_image_url
构建方式
WenetSpeech-Yue的构建依托于WenetSpeech-Pipe这一模块化自动处理流程,涵盖音频采集、说话人属性标注、语音质量评估、自动语音识别、文本后处理及识别器输出投票六大核心环节。原始音频源自多领域的长时语音资源,经由语音活动检测技术切分为 utterance 级别片段;说话人身份、年龄、性别等元数据通过说话人日志和属性估计模型自动标注;语音质量维度则引入信噪比、MOS 分数及带宽检测进行量化评估;ASR 转录采用 SenseVoice、Whisper 和 TeleASR 三系统并行处理,再经文本归一化与 ROVER 融合策略提升转录准确率,最终辅以 LLM 校对与强制对齐,生成带时间戳和多维标注的高质量语料。
特点
该数据集规模达 21,800 小时,覆盖故事、娱乐、戏剧、文化、博客等十大领域,具备多维度标注体系,包括语音文本转录、文本置信度、说话人身份、年龄、性别、信噪比及语音质量分数。其突出特点在于同时支持长短音频、语码转换及多领域场景,并引入三级置信度划分(强、中、弱标签),以适配不同训练需求。语音质量经严格筛选,其中 12,000 小时高信噪比与高 MOS 分数语料专为 TTS 任务优化,说话人属性分布亦反映真实场景下的年龄与性别多样性,为语音合成与识别提供丰富监督信号。
使用方法
WenetSpeech-Yue 可广泛用于语音识别与合成任务的模型训练与评估。用户可依据文本置信度筛选不同质量子集,例如采用高置信度数据微调模型以提升准确率,或结合中低置信度数据增强鲁棒性。数据集提供标准化 JSON 格式元数据,包含音频路径、时长、说话人属性、质量分数等字段,便于加载与预处理。配套的 WSYue-eval 评测集支持多场景验证,其中 WSYue-ASR-eval 涵盖长短语音与语码转换,WSYue-TTS-eval 则包含基础与覆盖子集,适用于零样本合成与泛化能力测试,为模型性能提供全面评估基准。
背景与挑战
背景概述
粤语作为全球约8490万母语者的重要汉语方言,其语音资源匮乏长期制约着自动语音识别(ASR)与文本转语音(TTS)技术的发展。2025年,西北工业大学音频、语音与语言处理组联合中国电信、香港科技大学等机构,发布了大规模多维度标注粤语语音数据集WenetSpeech-Yue。该数据集涵盖21,800小时音频,涉及故事、娱乐、戏剧等十类领域,并集成说话人属性、语音质量评分及多语言代码转换标注,旨在解决粤语语音处理中因资源稀缺导致的模型性能瓶颈问题,为方言语音计算研究提供关键基础设施。
当前挑战
该数据集核心挑战集中于粤语语音处理的复杂性:其九声六调系统、文白异读现象及频繁的中英代码转换要求模型具备高鲁棒性与多模态理解能力。构建过程中需克服长音频分割对齐、多系统转录融合、方言音素标注一致性等难题,同时需通过信号质量评估(如DNSMOS、SNR过滤)和说话人属性标注确保数据可用性,以支持高保真语音生成与跨领域泛化任务。
常用场景
经典使用场景
在粤语语音处理领域,WenetSpeech-Yue数据集被广泛应用于自动语音识别(ASR)和文本转语音(TTS)系统的训练与评估。其多维度标注特性支持模型在复杂声学环境和语言现象下的性能优化,例如长音频处理、语码转换(粤英混合)以及多领域语音生成。通过集成高质量转录、说话人属性和音频质量评分,该数据集为研究者提供了标准化基准,助力模型在真实场景中的鲁棒性提升。
实际应用
该数据集的实际应用涵盖智能客服、教育辅助和媒体制作等领域。在粤港澳大湾区,基于WenetSpeech-Yue训练的ASR系统可用于跨境商务通话的实时转录,支持粤英混合对话的准确解析;TTS模型则赋能有声书和广播剧的本地化生成,保留粤语特有的情感表达和文化语境。此外,其在车载语音交互和方言保护项目中的部署,体现了技术对区域语言生态的支撑作用。
衍生相关工作
WenetSpeech-Yue催生了多项经典研究工作,包括基于U2pp-Conformer架构的粤语ASR模型和融合LLM的混合系统(如U2pp-Conformer-LLM-Yue),这些模型在WSYue-eval基准上达到了SOTA性能。其管道设计启发了类似多语言数据构建框架(如GigaSpeech2),而TTS子集支撑了CosyVoice2-Yue等零样本语音合成系统的优化。后续研究进一步拓展至语音情感分析和跨方言迁移学习,形成了粤语处理的技术生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作