AlienKevin/cantone
收藏Hugging Face2024-02-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AlienKevin/cantone
下载链接
链接失效反馈官方服务:
资源简介:
Cantone数据集是一个包含34,489个粤语音节录音的数据集,由10位不同的说话者录制。这些音节是通过Amazon、Apple、Google和Microsoft的粤语语音合成引擎生成的。所有录音都以WAV格式存储,具有单声道、16 kHz采样率和16位每样本的特点。数据集构建过程包括音节的收集、预处理和验证步骤,确保数据的准确性和质量。
The Cantone dataset is a collection of 34,489 Cantonese syllable recordings, recorded by 10 distinct speakers. These syllables are generated using the Cantonese speech synthesis engines of Amazon, Apple, Google, and Microsoft. All recordings are stored in WAV format, featuring mono channel, 16 kHz sampling rate, and 16-bit per sample. The dataset construction process includes syllable collection, preprocessing, and validation steps to ensure the accuracy and quality of the data.
提供机构:
AlienKevin
原始信息汇总
数据集概述
基本信息
- 名称: Cantone
- 大小: 34,489 录音文件
- 语言: 粤语(Yue)
- 类别: 音频分类
- 标签: 语音, 粤语, 粤, 音节, 发音
- 许可证: MIT
数据集内容
- 录音数量: 34,489 个粤语音节录音
- 录音来源: 通过亚马逊、苹果、谷歌和微软的粤语语音合成引擎生成
- 录音格式:
- 通道: 单声道
- 采样率: 16 kHz
- 位深度: 16位
录音分布
| 公司 | 发言人 | 音节数量 |
|---|---|---|
| 亚马逊 | Hiujin | 3,885 |
| 苹果 | Aasing | 2,977 |
| 苹果 | Sinji | 2,977 |
| 谷歌 | A | 3,653 |
| 谷歌 | B | 3,653 |
| 谷歌 | C | 3,653 |
| 谷歌 | D | 3,653 |
| 微软 | Hiugaai | 3,349 |
| 微软 | Hiumaan | 3,349 |
| 微软 | Wanlung | 3,349 |
数据集构建
- 收集: 基于words.hk的音节录音,确定3,904个常见粤语音节,并通过语音合成API发音。
- 预处理:
- 音频转换为16kHz WAV文件
- 音频峰值归一化至-20 dBFS
- 剪切开头和结尾的静音部分(低于-50 dBFS的音频视为静音)
- 验证:
- 苹果语音通常将第5调音节错误地渲染为第2调,移除所有第5调音节
- 微软语音在单独的元音音节前添加辅音,移除所有元音音节
搜集汇总
数据集介绍

构建方式
Cantone数据集的构建过程严谨而系统,首先基于words.hk的音节录音,筛选出3,904个常见的粤语音节。随后,利用Amazon、Apple、Google和Microsoft的语音合成引擎,通过SSML的phoneme属性精确指定每个音节的读音,生成相应的录音。对于Apple的语音,直接使用粤拼文本,并通过本地粤语自动语音识别系统过滤不支持的音节。所有录音经过预处理,包括转换为16kHz的WAV文件、峰值归一化至-20 dBFS,以及去除开头和结尾的静音部分。最后,通过人工验证,移除合成错误的音节,确保数据质量。
特点
Cantone数据集具有显著的特点,首先,它包含了34,489个由10位不同发言人录制的粤语音节,涵盖了Amazon、Apple、Google和Microsoft的语音合成引擎。其次,所有录音均为单声道,采样率为16 kHz,每样本16位,确保了音频的高质量。此外,数据集通过严格的预处理和验证步骤,确保了音节的准确性和一致性,特别针对Apple和Microsoft语音的特定问题进行了修正,提升了数据集的实用性和可靠性。
使用方法
Cantone数据集适用于多种音频分类任务,特别是粤语语音识别和合成研究。用户可以直接下载WAV格式的音频文件,利用其高采样率和单声道特性进行进一步的音频处理和分析。数据集的结构化信息,包括发言人、公司和音节数量,便于用户根据需求筛选和使用特定部分的录音。此外,数据集的MIT许可确保了其广泛的应用自由,适合学术研究和商业开发。
背景与挑战
背景概述
Cantone数据集是由AlienKevin创建的,专注于粤语音节发音的音频分类任务。该数据集包含了34,489个由10位不同说话者录制的粤语音节,这些音节是通过Amazon、Apple、Google和Microsoft的语音合成引擎生成的。数据集的构建基于3,904个常见的粤语音节,这些音节来源于words.hk的音节录音。通过使用SSML的音素属性,精确地指定了每个音节的发音。Cantone数据集的创建不仅丰富了粤语语音数据的资源库,还为语音合成和识别技术的研究提供了宝贵的实验材料,特别是在粤语这一特定语言领域。
当前挑战
Cantone数据集在构建过程中面临了多项挑战。首先,不同语音合成引擎对音节的处理存在差异,例如Apple的语音合成引擎在处理第五声调音节时会错误地渲染为第二声调,而Microsoft的引擎则会在某些元音音节前添加不必要的辅音。这些技术限制要求在数据预处理阶段进行复杂的筛选和修正。其次,确保所有音频文件的质量和一致性也是一个重要挑战,包括将音频转换为16kHz的WAV格式、峰值归一化处理以及去除音频开头和结尾的静音部分。这些步骤确保了数据集的高质量和适用性,但也增加了数据处理的复杂性和工作量。
常用场景
经典使用场景
Cantone数据集在粤语音节发音的语音合成与识别领域中具有经典应用。该数据集通过整合Amazon、Apple、Google和Microsoft的语音合成引擎,生成了34,489个粤语音节录音,涵盖了10位不同发音者的语音数据。这些数据主要用于训练和评估粤语语音识别系统,特别是在音节级别的精确发音和声调识别方面。
实际应用
在实际应用中,Cantone数据集被广泛用于开发和优化粤语语音助手、语音识别软件及教育工具。例如,它可以用于构建更精确的粤语语音输入法,提升语音助手的自然语言理解能力,以及在语言学习应用中提供更真实的语音示范。
衍生相关工作
Cantone数据集的发布激发了多项相关研究,包括但不限于粤语语音合成模型的优化、跨平台语音合成一致性分析以及声调识别算法的改进。这些研究不仅提升了粤语语音技术的性能,也为其他方言和语言的语音处理研究提供了宝贵的参考和方法论。
以上内容由遇见数据集搜集并总结生成



