IViE corpus

github2020-08-14 更新2024-05-31 收录

下载链接：

https://github.com/GLaDO8/IViE_corpus_british_dialects_classification

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自英国不同地区的9种方言，包括伦敦、剑桥、卡迪夫等地的男性和女性说话者的录音。数据集还特别包含了三种来自少数民族的说话者群体：双语旁遮普语-英语说话者、双语威尔士语-英语说话者和加勒比海地区说话者。数据集共有9个文件夹，每个文件夹包含67个音频样本，这些样本是关于灰姑娘故事的叙述。

This dataset comprises recordings of male and female speakers from nine distinct dialects across various regions of the United Kingdom, including London, Cambridge, and Cardiff. Notably, the dataset includes three groups of speakers from ethnic minorities: bilingual Punjabi-English speakers, bilingual Welsh-English speakers, and speakers from the Caribbean region. The dataset is organized into nine folders, each containing 67 audio samples, which narrate the story of Cinderella.

创建时间：

2018-10-28

原始信息汇总

数据集概述

数据集名称：UK Dialects Dataset
数据集内容：包含来自英国不同地区的9种方言的录音。
录音地点：伦敦、剑桥、卡迪夫、利物浦、布拉德福德、利兹、纽卡斯尔、贝尔法斯特（北爱尔兰）、都柏林（爱尔兰共和国）。
录音对象：男性和女性发言人，包括三个来自少数民族的演讲者群体：双语旁遮普语-英语发言人、双语威尔士语-英语发言人和加勒比海地区发言人。
数据集结构：9个文件夹，每个文件夹包含67个音频样本。
音频内容：每个音频样本是对《灰姑娘》段落的叙述。

数据集用途

研究目的：分析不同方言中的语音差异，以改进自动语音识别（ASR）系统的性能。
分析方法：通过将音频信号分解为小帧（约25ms），并应用汉明窗、功率谱计算、梅尔标度转换、DCT变换等技术，提取语音特征。
特征提取：使用梅尔频率光谱系数（MFSC），并计算delta和delta-delta系数以捕捉语音的动态特性。

数据集处理

预处理步骤：包括音频分帧、应用汉明窗、计算功率谱、使用梅尔滤波器组转换频率、应用DCT变换提取MFSC、计算delta和delta-delta系数。
数据集划分：将数据集分为80%的训练集和20%的测试集。
模型训练：使用SVC分类器，通过网格搜索优化超参数，模型准确率在85-94%之间。

数据集特点

多样性：涵盖多种方言和少数民族语言背景。
技术深度：采用先进的语音信号处理技术进行特征提取和分析。
应用前景：有助于提升自动语音识别系统的方言识别能力。

搜集汇总

数据集介绍

构建方式

IViE语料库的构建基于英国及其周边地区的九种方言，涵盖了伦敦、剑桥、卡迪夫、利物浦、布拉德福德、利兹、纽卡斯尔、北爱尔兰的贝尔法斯特以及爱尔兰共和国的都柏林。数据集中包含了男性和女性说话者的录音，特别关注了少数族裔的双语者，如旁遮普语-英语、威尔士语-英语以及加勒比裔的说话者。每个方言组包含67个音频样本，内容为《灰姑娘》段落的朗读。音频信号通过帧级分解、汉明窗处理、功率谱计算、梅尔尺度转换、离散余弦变换（DCT）以及白噪声去除等步骤进行预处理，最终生成用于方言分类的特征。

特点

IViE语料库的显著特点在于其多样性和精细的语音特征提取。数据集不仅涵盖了英国主要地区的方言，还特别纳入了少数族裔的双语者，反映了语言多样性的复杂性。通过帧级分解和梅尔频率倒谱系数（MFCC）的提取，数据集捕捉了不同方言在音素层面的细微差异。此外，数据集中还包含了语音信号的动态特征，如速度（delta系数）和加速度（delta-delta系数），这些特征有助于更全面地描述方言的语音模式。数据集的多样性和精细特征使其成为方言分类和语音识别研究的宝贵资源。

使用方法

IViE语料库的使用方法主要围绕方言分类任务展开。首先，通过帧级分解和梅尔频率倒谱系数（MFCC）提取语音特征，生成包含12个主要系数的特征向量。随后，计算每个方言组的平均系数值，并进一步提取最小值、最大值、标准差、偏度和中位数等统计特征，以增强模型的泛化能力。数据集被划分为80%的训练集和20%的测试集，使用支持向量机（SVC）进行分类训练，并通过网格搜索优化超参数。尽管数据集规模较小，但其多样性和精细特征使得模型在方言分类任务中表现出较高的准确率，通常在85%至94%之间。

背景与挑战

背景概述

IViE语料库是一个专注于英国及其周边地区方言和口音的研究数据集，旨在解决自动语音识别（ASR）系统在处理不同方言时的性能瓶颈。该数据集由牛津大学的研究团队创建，收录了来自伦敦、剑桥、卡迪夫、利物浦等九个地区的语音样本，涵盖了包括双语使用者（如旁遮普语-英语、威尔士语-英语）和加勒比裔使用者在内的多样化语音数据。通过分析不同方言中的音素变化，该数据集为语音识别技术的改进提供了重要支持，尤其是在处理方言多样性方面具有显著影响力。

当前挑战

IViE语料库的研究面临多重挑战。首先，方言的多样性和复杂性使得语音识别系统难以准确捕捉不同方言之间的细微差异，尤其是在音素和语法结构上的变化。其次，数据集的构建过程中，研究者需要处理大量的语音信号分解和频谱分析任务，例如将音频信号分解为25ms的帧并进行梅尔频率倒谱系数（MFCC）提取，这一过程对计算资源和算法精度提出了较高要求。此外，数据集的规模相对较小，导致模型训练时容易出现过拟合现象，影响了模型的泛化能力和稳定性。这些挑战共同构成了IViE语料库在方言识别领域的研究难点。

常用场景

经典使用场景

IViE语料库广泛应用于语音识别和方言分类研究中。通过分析不同方言的语音特征，研究者能够深入理解方言之间的差异，尤其是在音素和语法结构上的变化。该数据集特别适用于自动语音识别（ASR）系统的训练和优化，尤其是在处理多方言环境下的语音输入时，能够显著提升系统的鲁棒性和准确性。

衍生相关工作

IViE语料库衍生了许多经典的研究工作，尤其是在方言分类和语音特征提取领域。基于该数据集的研究成果包括基于梅尔频率倒谱系数（MFCC）的方言分类模型、基于深度学习的多方言语音识别系统等。这些工作不仅推动了语音识别技术的发展，还为方言学和语音生成机制的研究提供了新的视角和方法。

数据集最近研究