KTH/waxholm
收藏Hugging Face2024-09-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/KTH/waxholm
下载链接
链接失效反馈官方服务:
资源简介:
Waxholm语料库于1993年至1994年在瑞典皇家理工学院(KTH)的语音、听觉和音乐系(TMH)收集。该语料库包含语音信号文件(.smp)和标签文件(.mix)。语音信号文件包含16位量化的语音信号,采样频率为16 kHz,标签文件包含语音的拼音、音素和单词级别的标注。标签文件的生成过程包括手动输入正字法文本、基于规则的文本到音素转换、自动对齐程序以及手动校正。语料库的详细信息可以在相关网页和参考文献中找到。
提供机构:
KTH
原始信息汇总
THE WAXHOLM CORPUS
文件信息
采样文件
- 文件格式: .smp
- 说话者标识: 文件名中fp20后的两位数字
- 文件头: 1024字节文本字符串,包含录音信息
- 量化: 16位,2字节/样本,大端序
- 采样频率: 16 kHz
标签文件
- 文件格式: .mix
- 生成步骤:
- 手动输入正字法文本
- 基于规则的文本到音素转换
- 自动对齐音素端点时间位置
- 手动校正
- 标签内容:
- TEXT: 正字法文本
- CT: 帧长度(样本点数,Waxholm mix文件中始终为1)
- FR: 帧号,表示段落开始
- 标签类型: 音素、音位、词级标签
- 音素符号: 主要使用KTH/TMH RULSYS系统的STA符号
额外音素标签
- sm: 唇或舌开口
- p:: 静音间隔
- pa: 呼吸声
- kl: 点击声
- v: 辅音间的短元音段
- 大写停止: 闭塞
- 小写停止: 爆破
参考文献
- Bertenstam, J., Blomberg, M., Carlson, R., Elenius, K., Granström, B., Gustafson, J., Hunnicutt, S., Högberg, J., Lindell, R., Neovius, L., Nord, L., de Serpa-Leitao, A., & Ström, N. (1995). "Spoken dialogue data collected in the WAXHOLM project" STL-QPSR 1/1995, KTH/TMH, Stockholm.
- Bertenstam, J., Blomberg, M., Carlson, R., Elenius, K., Granström, B., Gustafson, J., Hunnicutt, S., Högberg, J., Lindell, R., Neovius, L., de Serpa-Leitao, A., Nord, L., & Ström, N. (1995). The Waxholm application data-base. In Pardo, J.M. (Ed.), Proceedings Eurospeech 1995 (pp. 833-836). Madrid.



