TORGO-database

Hugging Face2024-11-29 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/abnerh/TORGO-database

下载链接

链接失效反馈

官方服务：

资源简介：

TORGO数据库包含发音障碍者和健康者的语音数据，包括音频文件及其转录文本，以及性别、语音状态和持续时间等附加信息。数据集分为训练集，没有提供开发/测试集。音频文件名包含说话者编号、会话编号、麦克风类型和话语编号。数据集中的语音数据包括短词和受限句子，适用于语音识别和音频分类任务。

The TORGO database contains speech data from individuals with speech disorders and healthy speakers, including audio files and their transcriptions, as well as supplementary information such as gender, speech status, and duration. The dataset is split into training sets only, with no development or test sets provided. The audio filenames incorporate speaker ID, session ID, microphone type, and utterance ID. The speech data in the dataset consists of short words and constrained sentences, which is suitable for speech recognition and audio classification tasks.

创建时间：

2024-11-27

原始信息汇总

TORGO 数据库：来自构音障碍者的语音数据集

数据集概述

数据来源：仅包含 TORGO 数据集中短词和受限句子的部分。
完整数据集：如需包含非词和非受限句子的完整数据集，请访问 TORGO 数据集页面。
数据处理：转录文本已标准化，去除了标点符号，保留了大小写。部分仅包含 xxx 的转录文本已被移除。
数据量：约 5.5 小时的构音障碍语音数据和 8 小时的正常语音数据。

数据类别

短词

用途：适用于无需词边界检测的语音声学研究。
包含内容：
- 英语数字、yes、no、up、down、left、right、forward、back、select、menu 以及国际无线电字母表（如 alpha、bravo、charlie）的重复。
- 来自 Frenchay Dysarthria Assessment 的 50 个词。
- 来自 Yorkston-Beukelman Assessment of Intelligibility of Dysarthric Speech 的 360 个词。
- 英国国家语料库中最常见的 10 个词。

受限句子

用途：用于利用词汇、句法和语义处理的自动语音识别（ASR）。
包含内容：
- 预选的音素丰富的句子，如 "The quick brown fox jumps over the lazy dog"。
- 祖父段落。
- 来自 Yorkston-Beukelman Assessment of Intelligibility of Dysarthric Speech 的 162 个句子。
- MOCHA-TIMIT 数据库中使用的 460 个 TIMIT 派生句子。

数据集结构

数据点：包含音频文件路径及其转录文本。
附加字段：性别、语音状态（构音障碍或正常）和持续时间。
文件命名：格式为 speakerNumber_sessionNumber_micType_utteranceNumber.wav。
- 说话者编号格式为 gender-speechStatus-speakerNumber（例如，FC01 = 女性控制组 #1，M04 = 男性构音障碍组 #4）。

数据集加载示例

python from datasets import load_dataset

dataset = load_dataset("abnerh/TORGO-database") print(dataset) DatasetDict({ train: Dataset({ features: [audio, transcription, speech_status, gender, duration], num_rows: 16552 }) })

数据点示例

python print(dataset[train][0]) {audio: {path: FC01_1_arrayMic_0066.wav, array: array([ 0.00125122, 0.00387573, 0.00115967, ..., 0.00149536, -0.00326538, 0.00027466]), sampling_rate: 16000}, transcription: alpha, speech_status: healthy, gender: female, duration: 3.3}

python print(dataset[train][12200]) {audio: {path: M02_1_headMic_0066.wav, array: array([ 0.00115967, 0.00106812, 0.00091553, ..., -0.00073242, -0.00082397, -0.00054932]), sampling_rate: 16000}, transcription: yet he still thinks as swiftly as ever, speech_status: dysarthria, gender: male, duration: 7.605}

引用

如在出版物中使用此数据库，请至少引用以下论文之一：
- Rudzicz, F., Hirst, G., Van Lieshout, P. (2012) Vocal tract representation in the recognition of cerebral palsied speech. The Journal of Speech, Language, and Hearing Research, 55(4):1190-1207, August.
- Rudzicz, F., Namasivayam, A.K., Wolff, T. (2012) The TORGO database of acoustic and articulatory speech from speakers with dysarthria. Language Resources and Evaluation, 46(4), pages 523--541.
- Rudzicz, F.(2012) Using articulatory likelihoods in the recognition of dysarthric speech. Speech Communication, 54(3), March, pages 430--444.

搜集汇总

数据集介绍

构建方式

TORGO数据库的构建基于对患有构音障碍（dysarthria）的说话者以及健康对照组的语音数据采集。数据采集过程中，参与者被要求朗读一系列短词和限制性句子，这些内容涵盖了数字、常用词汇、国际无线电字母表以及来自多个语音评估工具的词汇和句子。音频数据通过高质量的麦克风录制，并附有详细的转录文本，同时记录了说话者的性别、语音状态（健康或构音障碍）以及音频时长。数据经过标准化处理，去除了标点符号，但保留了大小写信息。

特点

TORGO数据库的特点在于其专注于构音障碍语音的研究，提供了约5.5小时的构音障碍语音数据和8小时的健康语音数据。数据集包含丰富的语音特征，如音频路径、转录文本、语音状态、性别和时长等信息。短词部分涵盖了数字、常用词汇以及来自语音评估工具的词汇，适合用于语音声学研究。限制性句子部分则包括语法和语义丰富的句子，适合用于自动语音识别（ASR）系统的开发与评估。数据集未提供标准化的开发集和测试集划分，用户可根据研究需求自行划分。

使用方法

使用TORGO数据库时，可通过Hugging Face的`datasets`库加载数据。加载后，数据集以字典形式返回，包含音频路径、转录文本、语音状态、性别和时长等字段。用户可通过索引访问具体数据点，获取音频文件及其相关信息。该数据库适用于自动语音识别、语音分类等任务，尤其适合研究构音障碍语音的特性与识别方法。使用该数据库时，需遵守学术非营利用途的规定，并在发表相关研究时引用指定的文献。

背景与挑战

背景概述

TORGO数据库是一个专门用于研究构音障碍（dysarthria）的语音数据集，由多伦多大学的研究团队于2012年创建，主要研究人员包括Frank Rudzicz等人。该数据集收录了构音障碍患者和健康对照者的语音数据，涵盖了短词和受限句子等多种语音类型。其核心研究问题在于通过声学和发音特征的分析，提升对构音障碍语音的识别和理解能力。TORGO数据库在语音识别、语音病理学以及辅助技术领域具有重要影响力，为相关研究提供了宝贵的数据支持。

当前挑战

TORGO数据库在解决构音障碍语音识别问题时面临多重挑战。首先，构音障碍患者的语音特征复杂多变，其发音不清晰、语速不均等问题增加了语音识别的难度。其次，数据集的构建过程中，研究人员需要精确标注语音数据，确保转录的准确性，同时还需处理语音数据的多样性和噪声干扰。此外，由于构音障碍患者的语音样本相对稀缺，数据集的规模有限，这在一定程度上限制了模型的训练和泛化能力。这些挑战共同构成了TORGO数据库在研究和应用中的主要难点。

常用场景

经典使用场景

TORGO数据库在语音识别和语音病理学研究中具有重要应用，尤其是在研究构音障碍患者的语音特征时。该数据集包含了构音障碍患者和健康个体的语音样本，涵盖了短词和限制性句子，这些数据为研究语音的声学特性、语音识别系统的性能优化提供了丰富的实验材料。通过分析这些语音样本，研究人员可以深入理解构音障碍对语音产生的影响，并开发出更精准的语音识别模型。

解决学术问题

TORGO数据库解决了构音障碍语音识别中的多个关键学术问题。首先，它提供了构音障碍患者与健康个体的对比数据，帮助研究人员识别和量化构音障碍对语音的影响。其次，数据集中的短词和限制性句子为语音识别系统的训练和测试提供了多样化的语料，特别是在处理复杂语音信号时，能够有效提升系统的鲁棒性和准确性。此外，该数据集还为语音病理学研究提供了宝贵的资源，推动了相关领域的发展。

衍生相关工作

TORGO数据库的发布催生了一系列相关研究，特别是在构音障碍语音识别和语音病理学领域。许多研究基于该数据集开发了新的语音识别算法，并提出了改进的声学模型。例如，Rudzicz等人的研究利用该数据集探索了构音障碍语音的声学特征，并提出了基于发音概率的语音识别方法。此外，该数据集还被用于评估不同语音识别系统在处理构音障碍语音时的性能，推动了相关技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集