AIOI dataset

github2021-06-25 更新2024-05-31 收录

下载链接：

https://github.com/EmergentSystemLabStudent/aioi_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

AIOI数据集包含60个由5个日语元音组成的句子，通过连接这些单词，形成了30个包含所有可能的两词句子和5个三词句子。每个句子由日语母语者发音两次并记录在数据集中。

The AIOI dataset comprises 60 sentences composed of five Japanese vowels. By concatenating these words, it forms 30 sentences containing all possible two-word combinations and 5 three-word sentences. Each sentence is pronounced twice by native Japanese speakers and recorded in the dataset.

创建时间：

2018-04-16

原始信息汇总

Japanese vowel native speech dataset

数据集概述

名称: AIOI dataset
内容: 包含60个句子，由5个日语元音单词组合而成，包括30个两词句和5个三词句。每个句子由日语母语者发音两次。

数据集结构

DATA/: 语音数据。
HTKSCRIPT/: 用于转换为MFCC的脚本。
NORMALIZE/: 调整音量并在开始和结束添加静音段的语音数据。
ORIGINAL/: 原始录音数据，未调整采样率。
PHONELABEL/: 音素标签。
PHONELABELF/: 每帧的音素标签。
WORDLABEL/: 单词标签。
WORDLAEELF/: 每帧的单词标签。
aioi_3dim/:
- DATA/: 通过深度稀疏自编码器压缩的3维MFCC特征。
- LABEL/: 标签数据。
aioi_12dim/:
- DATA/: 从39维MFCC特征中提取的12维MFCC特征。
- LABEL/: 标签数据。

快速开始

可使用aioi_3dim或aioi_12dim目录中的3维或12维特征。
在Python中，可通过numpy的loadtxt函数读取特征数据。

使用方法

安装HTK工具。
创建工作目录，并复制DATA和HTKSCRIPT目录中的文件到工作目录。
进入工作目录，运行htk.sh脚本以生成39维MFCC特征的文本文件。

搜集汇总

数据集介绍

构建方式

AIOI数据集的构建基于日语元音发音的多样性，通过组合五个日语元音单词（如aioi、aue、ao、ie、uo）生成了60个句子。这些句子包括30个两词组合和5个三词组合，每个句子由一位日语母语者朗读两次，并录制成音频数据。数据集涵盖了原始录音、音量调整后的音频、音素标签、词汇标签以及不同维度的MFCC特征数据，确保了数据的多样性和丰富性。

特点

AIOI数据集的特点在于其专注于日语元音的发音特征，提供了从原始录音到经过处理的多种数据形式。数据集不仅包含未经处理的原始音频，还提供了经过音量调整和静音段添加的音频版本。此外，数据集还包含了音素和词汇的标签信息，以及通过深度稀疏自编码器压缩的3维MFCC特征和从39维MFCC特征中提取的12维特征。这些多维度的数据形式为语音识别和语音合成研究提供了丰富的实验材料。

使用方法

使用AIOI数据集时，用户可以从aioi_3dim或aioi_12dim目录中选择3维或12维的MFCC特征进行实验。通过Python代码，用户可以使用Numpy库中的loadtxt函数加载特征数据。此外，用户还可以通过安装HTK工具包，按照README文件中的步骤生成39维的MFCC特征。具体步骤包括创建工作目录、复制相关文件并运行htk.sh脚本，最终在指定目录中生成所需的MFCC特征文件。

背景与挑战

背景概述

AIOI数据集是一个专注于日语元音发音的语音数据集，由包含五个日语元音的五种单词组合而成的60个句子构成。这些句子包括30个两词组合和5个三词组合，每个句子由一位日语母语者重复发音两次并记录。该数据集的创建旨在为语音识别和语音合成领域的研究提供高质量的日语元音发音数据。通过提供不同维度的MFCC特征（如3维和12维），AIOI数据集为研究人员提供了丰富的语音特征分析工具，推动了日语语音处理技术的发展。

当前挑战

AIOI数据集在构建过程中面临的主要挑战包括如何确保语音数据的多样性和代表性，以及如何处理和提取有效的语音特征。由于日语元音的发音特性较为复杂，数据集需要涵盖所有可能的元音组合，以确保模型的泛化能力。此外，语音数据的预处理和特征提取（如MFCC特征的生成）需要高度的精确性，以避免信息丢失或噪声干扰。这些挑战不仅影响了数据集的构建质量，也对后续的语音识别和合成任务提出了更高的技术要求。

常用场景

经典使用场景

AIOI数据集在语音识别和语音合成领域中被广泛应用，特别是在研究日语元音的发音特性时。该数据集通过提供由日语母语者发音的句子，帮助研究人员分析和理解日语元音在连续语音中的变化和相互作用。这些数据对于开发更准确的语音识别模型和自然语言处理系统至关重要。

衍生相关工作

基于AIOI数据集，许多经典的研究工作得以展开，包括日语元音的声学特征分析、语音识别模型的优化以及语音合成技术的改进。这些研究不仅推动了日语语音处理技术的发展，也为其他语言的语音处理研究提供了宝贵的参考和借鉴。

数据集最近研究