five

KTH/waxholm

收藏
Hugging Face2024-09-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/KTH/waxholm
下载链接
链接失效反馈
官方服务:
资源简介:
Waxholm语料库于1993年至1994年在瑞典皇家理工学院(KTH)的语音、听觉和音乐系(TMH)收集。该语料库包含语音信号文件(.smp)和标签文件(.mix)。语音信号文件包含16位量化的语音信号,采样频率为16 kHz,标签文件包含语音的拼音、音素和单词级别的标注。标签文件的生成过程包括手动输入正字法文本、基于规则的文本到音素转换、自动对齐程序以及手动校正。语料库的详细信息可以在相关网页和参考文献中找到。
提供机构:
KTH
原始信息汇总

THE WAXHOLM CORPUS

文件信息

采样文件

  • 文件格式: .smp
  • 说话者标识: 文件名中fp20后的两位数字
  • 文件头: 1024字节文本字符串,包含录音信息
  • 量化: 16位,2字节/样本,大端序
  • 采样频率: 16 kHz

标签文件

  • 文件格式: .mix
  • 生成步骤:
    1. 手动输入正字法文本
    2. 基于规则的文本到音素转换
    3. 自动对齐音素端点时间位置
    4. 手动校正
  • 标签内容:
    • TEXT: 正字法文本
    • CT: 帧长度(样本点数,Waxholm mix文件中始终为1)
    • FR: 帧号,表示段落开始
    • 标签类型: 音素、音位、词级标签
    • 音素符号: 主要使用KTH/TMH RULSYS系统的STA符号

额外音素标签

  • sm: 唇或舌开口
  • p:: 静音间隔
  • pa: 呼吸声
  • kl: 点击声
  • v: 辅音间的短元音段
  • 大写停止: 闭塞
  • 小写停止: 爆破

参考文献

  • Bertenstam, J., Blomberg, M., Carlson, R., Elenius, K., Granström, B., Gustafson, J., Hunnicutt, S., Högberg, J., Lindell, R., Neovius, L., Nord, L., de Serpa-Leitao, A., & Ström, N. (1995). "Spoken dialogue data collected in the WAXHOLM project" STL-QPSR 1/1995, KTH/TMH, Stockholm.
  • Bertenstam, J., Blomberg, M., Carlson, R., Elenius, K., Granström, B., Gustafson, J., Hunnicutt, S., Högberg, J., Lindell, R., Neovius, L., de Serpa-Leitao, A., Nord, L., & Ström, N. (1995). The Waxholm application data-base. In Pardo, J.M. (Ed.), Proceedings Eurospeech 1995 (pp. 833-836). Madrid.
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作