timit-asr/timit_asr

Name: timit-asr/timit_asr
Creator: timit-asr
Published: 2024-09-10 07:51:06
License: 暂无描述

Hugging Face2024-09-10 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/timit-asr/timit_asr

下载链接

链接失效反馈

官方服务：

资源简介：

TIMIT语料库是一个为声学研究以及自动语音识别系统的开发和评估提供语音数据的语料库。它包含了630名来自美国八大主要方言区的说话者的宽带录音，每位说话者朗读了十个富含音素的句子。TIMIT语料库包括时间对齐的正字法、音素和单词转录，以及每个语音片段的16位、16kHz的语音波形文件。该语料库的设计是麻省理工学院（MIT）、SRI国际（SRI）和德州仪器公司（TI）的联合成果。语音在TI录制，在MIT进行转录，并由美国国家标准与技术研究院（NIST）验证并准备用于CD-ROM生产。

The TIMIT Corpus is a speech corpus designed to provide acoustic data for acoustic research, as well as the development and evaluation of automatic speech recognition systems. It contains broadband audio recordings from 630 speakers originating from eight major American dialect regions, with each speaker reading ten phonetically rich sentences. The TIMIT Corpus includes time-aligned orthographic, phonetic, and word transcriptions, as well as 16-bit, 16 kHz speech waveform files for each speech segment. This corpus was developed as a joint effort by the Massachusetts Institute of Technology (MIT), SRI International (SRI), and Texas Instruments (TI). The speech data was recorded at TI, transcribed at MIT, and verified and prepared for CD-ROM production by the United States National Institute of Standards and Technology (NIST).

提供机构：

timit-asr

原始信息汇总

数据集概述

基本信息

数据集名称: TIMIT
语言: 英语
许可证: 其他（LDC-User-Agreement-for-Non-Members）
多语言性: 单语种
数据量: 1K<n<10K
源数据: 原始数据
任务类别: 自动语音识别
Paperswithcode ID: timit

数据集摘要

TIMIT语料库是为声学-音韵学研究和自动语音识别系统的发展和评估提供语音数据而设计的。它包含来自美国八大主要方言的630名说话者阅读的十句语音丰富的句子。TIMIT语料库包括时间对齐的正字法、音韵和单词转录，以及每个话语的16位、16kHz语音波形文件。

支持的任务和排行榜

自动语音识别: 该数据集可用于训练自动语音识别（ASR）模型。模型接收音频文件并被要求将其转录为书面文本。最常见的评估指标是词错误率（WER）。任务有一个活跃的排行榜，可以在Paperswithcode Leaderboard上找到。

数据结构

数据实例

一个典型的数据点包括音频文件的路径（通常称为file）及其转录（称为text）。还提供了有关说话者和包含转录的段落的其他信息。

数据字段

file: 下载的音频文件的路径（.wav格式）。
audio: 包含下载的音频文件路径、解码的音频数组和采样率的字典。
text: 音频文件的转录。
phonetic_detail: 构成句子的音素。
word_detail: 转录的单词级别分割。
dialect_region: 录音的方言代码。
sentence_type: 句子的类型（SA:方言, SX:紧凑或 SI:多样）。
speaker_id: 说话者的唯一ID。
id: 数据样本的ID，包含<SENTENCE_TYPE><SENTENCE_NUMBER>。

数据分割

语音材料已被细分为训练和测试部分。默认的训练-测试分割将在数据下载时提供。测试数据包含24名说话者的核心部分，每个方言区域有2名男性和1名女性。

数据集创建

个人和敏感信息

数据集包含在线捐赠语音的人。您同意不试图确定此数据集中说话者的身份。

使用数据的注意事项

其他已知限制

数据集仅用于研究目的。请检查数据集许可证以获取更多信息。

附加信息

数据集策展人

数据集由John S. Garofolo, Lori F. Lamel, William M. Fisher, Jonathan G. Fiscus, David S. Pallett, Nancy L. Dahlgren, Victor Zue创建。

许可证信息

LDC User Agreement for Non-Members

引用信息

@inproceedings{ title={TIMIT Acoustic-Phonetic Continuous Speech Corpus}, author={Garofolo, John S., et al}, ldc_catalog_no={LDC93S1}, DOI={https://doi.org/10.35111/17gk-bn40}, journal={Linguistic Data Consortium, Philadelphia}, year={1983} }

搜集汇总

数据集介绍

构建方式

在语音识别研究领域，TIMIT数据集的构建体现了严谨的学术合作精神。该数据集由麻省理工学院、SRI国际和德州仪器公司联合设计，旨在为声学语音学研究及自动语音识别系统的开发与评估提供标准语料。其构建过程涵盖了从语音采集到精细标注的全链条：由630位来自美国八大方言区的发音人，在受控环境下朗读十条音素丰富的句子，形成宽带录音。随后，麻省理工学院负责转录工作，并由美国国家标准与技术研究院进行验证与后期处理，最终生成了包含时间对齐的正字、音素和词语转写，以及16位、16kHz采样率的波形文件，确保了数据在语音学层面的深度与精度。

使用方法

对于希望利用TIMIT数据集的研究者，需首先遵循其许可协议，在LDC官网手动完成数据下载。获取数据后，可通过Hugging Face的`datasets`库，使用`load_dataset`函数并指定本地数据目录路径进行加载。加载后的数据集结构清晰，每条数据实例均包含音频文件路径、解码后的音频数组、采样率、文本转录以及丰富的元数据字段。在进行模型训练或评估时，可直接访问`audio`和`text`字段获取输入与标签，并利用其预定义的数据划分。该数据集主要支持自动语音识别和说话人识别任务，其标准评估指标为词错误率，研究者可参考Paperswithcode上的公开排行榜进行性能对比。

背景与挑战

背景概述

TIMIT数据集诞生于上世纪八十年代，由麻省理工学院、SRI国际与德州仪器公司联合研发，旨在为声学语音学研究及自动语音识别系统的开发与评估提供标准化语料。该数据集收录了来自美国八大主要方言区的630位发音人朗读的语音材料，每条语音均配有精细的时间对齐文本、音素及词汇转写，其设计初衷在于解决语音识别领域中对高精度、多方言覆盖的基准数据需求。TIMIT的构建不仅推动了声学模型与隐马尔可夫模型在语音识别中的广泛应用，更为后续语音技术研究奠定了坚实的实验基础，成为该领域里程碑式的资源之一。

当前挑战

TIMIT数据集致力于解决自动语音识别中的核心挑战，即如何在高噪声鲁棒性、跨方言泛化能力及音素级识别精度上实现突破。其构建过程面临多重困难：在数据采集阶段，需精确平衡不同方言与性别比例，确保语料在语音学上的代表性；在标注环节，人工进行时间对齐的音素与词汇转写耗费巨大，且要求标注者具备专业的语音学知识以维持一致性。此外，数据集规模相对有限，难以完全覆盖现实场景中复杂的语音变异，这在一定程度上制约了基于深度学习的现代语音识别模型的进一步优化与泛化性能提升。

常用场景

经典使用场景

在语音识别研究领域，TIMIT数据集作为经典基准，常被用于评估自动语音识别（ASR）系统的性能。其精心设计的语音材料覆盖了八种美国英语方言，每个发音人朗读的句子富含语音学特征，为模型训练提供了多样化的语音样本。研究者利用该数据集进行音素识别和单词转录任务，通过计算词错误率（WER）和字错误率（CER）来量化系统准确性，从而推动语音识别技术的迭代与优化。

解决学术问题

TIMIT数据集有效解决了语音学研究和自动语音识别发展中的关键问题。它提供了时间对齐的正交、音素和单词转录，以及高质量的宽带录音，使得研究者能够深入探究声学-语音学特征与语音识别性能之间的关联。该数据集帮助学术界克服了早期语音数据缺乏标准化标注的局限，为语音识别模型的开发、评估与比较奠定了坚实基础，显著促进了语音处理领域的理论进展。

实际应用

在实际应用中，TIMIT数据集为语音技术的商业化部署提供了重要支持。基于该数据集训练的语音识别模型，被广泛应用于智能助手、语音转文字工具和语音控制系统等场景。其涵盖的多种方言和语音变化，有助于提升模型在真实环境中的鲁棒性和泛化能力，从而改善用户体验，推动语音交互技术在教育、医疗和客户服务等行业的落地与普及。

数据集最近研究