timit-asr/timit_asr
收藏数据集概述
基本信息
- 数据集名称: TIMIT
- 语言: 英语
- 许可证: 其他(LDC-User-Agreement-for-Non-Members)
- 多语言性: 单语种
- 数据量: 1K<n<10K
- 源数据: 原始数据
- 任务类别: 自动语音识别
- Paperswithcode ID: timit
数据集摘要
TIMIT语料库是为声学-音韵学研究和自动语音识别系统的发展和评估提供语音数据而设计的。它包含来自美国八大主要方言的630名说话者阅读的十句语音丰富的句子。TIMIT语料库包括时间对齐的正字法、音韵和单词转录,以及每个话语的16位、16kHz语音波形文件。
支持的任务和排行榜
- 自动语音识别: 该数据集可用于训练自动语音识别(ASR)模型。模型接收音频文件并被要求将其转录为书面文本。最常见的评估指标是词错误率(WER)。任务有一个活跃的排行榜,可以在Paperswithcode Leaderboard上找到。
数据结构
数据实例
一个典型的数据点包括音频文件的路径(通常称为file)及其转录(称为text)。还提供了有关说话者和包含转录的段落的其他信息。
数据字段
- file: 下载的音频文件的路径(.wav格式)。
- audio: 包含下载的音频文件路径、解码的音频数组和采样率的字典。
- text: 音频文件的转录。
- phonetic_detail: 构成句子的音素。
- word_detail: 转录的单词级别分割。
- dialect_region: 录音的方言代码。
- sentence_type: 句子的类型(SA:方言, SX:紧凑 或 SI:多样)。
- speaker_id: 说话者的唯一ID。
- id: 数据样本的ID,包含<SENTENCE_TYPE><SENTENCE_NUMBER>。
数据分割
语音材料已被细分为训练和测试部分。默认的训练-测试分割将在数据下载时提供。测试数据包含24名说话者的核心部分,每个方言区域有2名男性和1名女性。
数据集创建
个人和敏感信息
数据集包含在线捐赠语音的人。您同意不试图确定此数据集中说话者的身份。
使用数据的注意事项
其他已知限制
数据集仅用于研究目的。请检查数据集许可证以获取更多信息。
附加信息
数据集策展人
数据集由John S. Garofolo, Lori F. Lamel, William M. Fisher, Jonathan G. Fiscus, David S. Pallett, Nancy L. Dahlgren, Victor Zue创建。
许可证信息
LDC User Agreement for Non-Members
引用信息
@inproceedings{ title={TIMIT Acoustic-Phonetic Continuous Speech Corpus}, author={Garofolo, John S., et al}, ldc_catalog_no={LDC93S1}, DOI={https://doi.org/10.35111/17gk-bn40}, journal={Linguistic Data Consortium, Philadelphia}, year={1983} }




