Gowajee Corpus

github2024-04-16 更新2024-05-31 收录

下载链接：

https://github.com/ekapolc/gowajee_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在朱拉隆功大学开设的自动语音识别课程中作为作业收集的。数据集包含2017年春季至2023年课程的录音。学生们被要求组成最多六人的小组，每个小组都需要提出一个智能家庭应用的例子，并录制他们设计的相同句子集。每个参与者需收集101个语音，其中第一个语音是唤醒词Gowajee，第二个语音必须以Gowajee开头并伴随一个命令。录音规格为16kHz，16位深度，单声道。数据集总长度为17小时11分钟，包含20308个语音，来自188位说话者，词汇量为2257个词，总词数为111931个。

This dataset was collected as part of the coursework for the Automatic Speech Recognition course offered at Chulalongkorn University. It comprises recordings from the spring semester of 2017 through to the 2023 course sessions. Students were required to form groups of up to six members, with each group tasked to propose an example of a smart home application and record a set of identical sentences they designed. Each participant was to collect 101 speech samples, the first of which was the wake word 'Gowajee', and the second had to begin with 'Gowajee' followed by a command. The recordings were made at a specification of 16kHz, 16-bit depth, mono. The total duration of the dataset is 17 hours and 11 minutes, containing 20,308 speech samples from 188 speakers, with a vocabulary size of 2,257 words and a total word count of 111,931.

创建时间：

2018-06-15

原始信息汇总

Gowajee Corpus 概述

数据集描述

收集背景：该数据集是在朱拉隆功大学自动语音识别课程中作为作业收集的，涵盖2017年至2023年春季课程的录音。
参与者：学生组成最多六人的小组，每个小组设计一个智能家庭应用场景，并录制相同的句子集。
录音要求：
- 每人收集101个语音，其中第一个语音为“Gowajee”，作为唤醒词。
- 第二个语音必须以“Gowajee”开始，并伴随一个命令。
- 录音格式为16kHz，16位深度，单声道。
- 2017-2018年鼓励使用提供的单向麦克风录音，后期年份则鼓励使用学生选择的硬件。

数据集结构

音频文件：按年份分类存储，包括2017至2023年的录音。
分割：数据集分为训练集、开发集和测试集，分别由不同数量的学生小组录音组成。

数据集统计

总语音数：20,308个语音。
发言人数量：188人，其中163人为男性，25人为女性。
总时长：17小时11分钟。
词汇量：2,257个词，总词数为111,931。

特殊集合

一个小组录制的泰语青少年俚语版本“ภาษาลู”被单独分出。

引用信息

引用时需包含数据集版本号0.9.3，并参考提供的引用格式。

搜集汇总

数据集介绍

构建方式

Gowajee Corpus 数据集的构建源于朱拉隆功大学自动语音识别课程的作业任务。该数据集汇集了2017年至2023年春季课程中学生的录音，涵盖了智能家庭应用场景的语音数据。学生们被要求组成最多六人的小组，设计并录制一系列特定的句子，其中包括唤醒词“Gowajee”及其后续命令。录音要求为16k Hz、16位深度、单声道格式，且在最初两年鼓励使用单向麦克风，后期则允许学生根据演示需求选择硬件设备。数据集的构建过程中，未对录音环境进行严格限制，确保了数据的多样性和真实性。

特点

Gowajee Corpus 数据集的显著特点在于其多样化的语音数据来源和丰富的应用场景。数据集包含了20308条语音记录，来自188名说话者，其中163名为男性，25名为女性，总时长达到17小时11分钟。此外，数据集还特别收录了一组使用泰国青少年俚语“ภาษาลู”录制的语音，进一步增强了语言表达的多样性。数据集的词汇量达到2257个单词，总词数为111931，为语音识别模型的训练提供了丰富的语料资源。

使用方法

Gowajee Corpus 数据集适用于自动语音识别（ASR）模型的训练与评估。数据集已预先划分为训练集、开发集和测试集，分别包含不同数量的语音记录，便于用户进行模型训练和性能评估。用户可以通过提供的文件结构快速访问和处理数据，包括音频文件和相应的文本标注。此外，数据集还提供了基准测试结果，使用voxforge训练脚本在开发集和测试集上的错误率分别为14.91%和8.82%，为用户提供了参考性能指标。

背景与挑战

背景概述

Gowajee Corpus是由泰国朱拉隆功大学在自动语音识别课程中收集的一个智能家庭语音数据集，主要用于研究与‘Gowajee’唤醒词相关的语音识别任务。该数据集的创建始于2017年春季，持续至2023年，由Ekapol Chuangsuwanich等研究人员主导，旨在通过学生团队的合作，收集多样化的语音样本，以支持智能家庭应用的开发。数据集包含了188名说话者的20,308条语音记录，总时长超过17小时，涵盖了2,257个词汇。该数据集的发布对语音识别技术在智能家庭领域的应用具有重要意义，尤其是在泰语语音识别的研究中提供了宝贵的资源。

当前挑战

Gowajee Corpus在构建过程中面临多项挑战。首先，数据集的多样性依赖于学生团队的创意和录音条件，这可能导致录音质量参差不齐。其次，尽管数据集包含了188名说话者的语音，但性别分布不均，仅有25名女性，这可能影响模型的性别泛化能力。此外，数据集中的语音样本来自不同的录音环境，缺乏统一的录音规范，可能导致背景噪音和环境差异对识别精度的影响。最后，数据集中的‘ภาษาลู’青少年俚语版本泰语样本的分离，增加了处理和分析的复杂性，要求模型具备更强的语言适应能力。

常用场景

经典使用场景

Gowajee Corpus数据集的经典使用场景主要集中在智能语音识别领域，特别是针对泰语的唤醒词识别和语音命令解析。该数据集通过收集101个固定句子的录音，涵盖了从简单的唤醒词‘Gowajee’到后续的命令语句，为研究者提供了一个标准化的语音数据集，用于训练和评估语音识别模型。

实际应用

在实际应用中，Gowajee Corpus数据集可用于开发泰语智能语音助手和智能家居控制系统。例如，通过训练基于该数据集的语音识别模型，可以实现对泰语唤醒词‘Gowajee’的快速响应，并准确解析后续的语音命令，从而提升用户体验和系统的智能化水平。

衍生相关工作

基于Gowajee Corpus数据集，研究者们开发了多种语音识别模型和算法，特别是在泰语语音识别和唤醒词检测方面。这些工作不仅提升了语音识别的准确性，还推动了相关领域的技术进步，如多语言语音识别、噪声环境下的语音处理等，为智能语音技术的广泛应用奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集