USC-TIMIT

Name: USC-TIMIT
Creator: 德国埃尔朗根-纽伦堡弗莱德里希-亚历山大大学模式识别实验室, 德国埃尔朗根-纽伦堡弗莱德里希-亚历山大大学智能成像实验室, 哥伦比亚安提奥基亚大学GITA实验室
Published: 2025-07-24 00:44:22
License: 暂无描述

arXiv2025-07-24 更新2025-07-25 收录

下载链接：

https://github.com/DaE-plz/AC_Contrastive_Phonology

下载链接

链接失效反馈

官方服务：

资源简介：

USC-TIMIT数据集是一个多模态语料库，旨在促进对人类语音生产的研究。该数据集由10位美国英语母语者（5男5女）产生，每人录制了460个语音平衡的句子。数据集包括通过1.5T商用MRI扫描仪获得的实时MRI图像和同步录制的语音信号。MRI和语音数据采集于13层螺旋梯度回波序列，最终帧率为约23.18帧/秒。数据集被用于研究语音发音的分类，包括发音方式、发音位置和浊音。该数据集在语音科学和临床诊断中具有重要的应用价值，可以促进对语音产生过程的深入理解，并在临床环境中提高疾病诊断的准确性和个性化康复的效果。

USC-TIMIT Dataset is a multimodal corpus designed to facilitate research on human speech production. The dataset was collected from 10 native American English speakers (5 male and 5 female), with each participant recording 460 phonetically balanced sentences. It includes real-time MRI images acquired via a 1.5T commercial MRI scanner and synchronously recorded speech signals. Both MRI and speech data were collected using a 13-slice spiral gradient-echo sequence, with a final frame rate of approximately 23.18 frames per second. This dataset has been applied to research on speech articulation classification, including manner of articulation, place of articulation, and voicing. It holds significant application value in both speech science and clinical diagnosis: it can promote in-depth understanding of the speech production process, and improve the accuracy of disease diagnosis and the efficacy of personalized rehabilitation in clinical settings.

提供机构：

德国埃尔朗根-纽伦堡弗莱德里希-亚历山大大学模式识别实验室, 德国埃尔朗根-纽伦堡弗莱德里希-亚历山大大学智能成像实验室, 哥伦比亚安提奥基亚大学GITA实验室

创建时间：

2025-07-24

搜集汇总

数据集介绍

构建方式

USC-TIMIT数据集的构建采用了多模态数据采集方法，结合了实时磁共振成像（rtMRI）和同步语音信号记录。该数据集包含10名美国英语母语者的460个语音平衡句子，通过1.5T MRI扫描仪采集，同时使用光纤麦克风记录语音信号。MRI数据采用13叶螺旋梯度回波序列，帧率约为23.18帧/秒，语音信号采样率为20kHz。数据经过时间对齐和帧级标注，确保多模态数据的时间一致性。

特点

USC-TIMIT数据集的主要特点在于其多模态性和高时间分辨率。数据集同时包含rtMRI视频和同步语音信号，为研究语音产生的动态过程提供了独特视角。rtMRI数据具有68×68像素的空间分辨率和约23.18Hz的时间分辨率，能够清晰显示发音器官的运动轨迹。数据集涵盖了15个音韵类别，包括发音方式、发音部位和发声状态，但各类别数据分布不均衡，其中静默和元音类别的数据量最大。这种多模态特性使其成为研究发音-声学关系的理想资源。

使用方法

USC-TIMIT数据集主要用于音韵学分类任务的模型训练和评估。研究人员可以采用单模态（仅MRI或仅语音）或多模态融合的方法处理数据。典型使用流程包括：对MRI视频进行帧提取和尺寸调整（如128×128像素），对语音信号进行重采样（16kHz）和分段；然后使用视觉Transformer（ViT）和Wav2Vec等编码器提取特征；最后通过对比学习或传统分类方法进行音韵学分类。数据集支持5折交叉验证，确保模型评估的可靠性，特别适合研究发音-声学对应关系和开发多模态语音处理系统。

背景与挑战

背景概述

USC-TIMIT数据集是由南加州大学（USC）的研究团队于2014年创建的多模态语音研究数据库，旨在通过实时磁共振成像（rtMRI）和同步语音信号深入探究人类语音产生的发音机制。该数据集由10名美式英语母语者（5男5女）的460个语音平衡句子构成，采用1.5T MRI扫描仪以23.18帧/秒的速率采集中矢状面声道动态图像，同时通过光纤麦克风记录20kHz采样率的同步语音。作为首个公开融合rtMRI与高精度语音信号的多模态语料库，USC-TIMIT为发音语音学、临床诊断及语音技术研发提供了关键实验平台，其创新性数据采集范式显著推动了《The Journal of the Acoustical Society of America》等顶级期刊关注的发音动力学研究进展。

当前挑战

该数据集面临的挑战主要体现在两个维度：在科学问题层面，发音特征分类需克服声道结构细微变化（如/k/与/t/的舌位差异）导致的视觉混淆，以及声带振动等不可见特征的模态互补需求；在数据构建层面，非磁性麦克风的高成本限制了多中心数据采集，13层螺旋梯度回波序列产生的68×68像素低分辨率影像需通过视图共享重建技术增强，而发音类别天然不平衡（如仅0.26%的声门音帧）加剧了分类模型偏差。此外，5mm层厚的MRI切片使软腭等关键发音器官的三维重建面临空间信息缺失的挑战。

常用场景

经典使用场景

USC-TIMIT数据集在语音科学和临床诊断研究中扮演着重要角色，尤其在发音-音韵特征分类方面。该数据集通过实时磁共振成像（rtMRI）和同步语音信号，为研究者提供了发音过程中声道动态配置的详细可视化数据。经典使用场景包括发音方式（manner of articulation）、发音部位（place of articulation）和声带振动（voicing）的分类任务，这些任务对于理解人类语音产生的物理机制至关重要。

实际应用

在实际应用中，USC-TIMIT数据集为临床语音治疗和个性化康复提供了重要支持。例如，通过分析患者的发音特征，可以更精准地诊断发音障碍（如舌癌患者的语音异常），并制定针对性治疗方案。此外，该数据集还为开发鲁棒的语音技术（如语音识别和合成系统）提供了多模态数据基础，尤其在噪声环境或病理语音条件下表现出显著优势。

衍生相关工作

USC-TIMIT数据集衍生了一系列经典研究工作。Narayanan等人利用该数据集构建了多模态发音语料库，推动了语音产生机制的研究。Van Leeuwen等人开发了基于CNN的语音分类模型，实现了对27个音素的分类。近期，Arias-Vergara等人提出的对比学习框架进一步提升了音韵分类性能，F1分数达到0.85。这些工作不仅验证了数据集的科学价值，也为多模态语音分析开辟了新方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集