ITA Corpus

github2022-02-15 更新2024-05-31 收录

下载链接：

https://github.com/y-chan/amitaro-ita-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由amitaro-ita-corpus仓库提供，包含音素及其开始和结束时间的标签数据，以及音素和音调的CSV文件。数据集还包括音调符号，用于表示音调的变化，如音调上升、下降等。此外，还提供了用于处理和转换这些数据的脚本。

This dataset is provided by the amitaro-ita-corpus repository and includes labeled data of phonemes along with their start and end times, as well as CSV files containing phonemes and tones. The dataset also incorporates tone symbols to denote variations in tone, such as rising or falling tones. Additionally, scripts for processing and transforming this data are included.

创建时间：

2022-02-15

原始信息汇总

数据集概述

数据集内容

音素标签数据：包含音素及其开始和结束时间（单音素标签），使用OpenJTalk的音素，包括无声元音。
音素和重音信息：文件accent_and_phoneme*.csv记录音素和重音信息，其中重音信息经过OpenJTalk机械推定后由作者y-chan手动修正。
重音信息：文件accent*.csv仅记录重音信息。
辅助脚本：提供将accent_and_phoneme*.csv转换为accent*.csv的脚本extract_accent_and_phoneme.py，以及将重音信息转换为numpy数组文件的脚本convert_accent.py。

重音符号说明

符号含义：
- [：音高上升
- ]：音高下降（重音核）
- #：重音边界
- ?：重音边界（疑问形式）
- _：重音信息无变化

数据集用途

为即将使用ITA语料库的用户提供易于查看重音信息的VOICEVOX（0.10.4）项目文件。

数据集生成依据

数据集根据以下研究报告创建：
- 藤井一貴, 齋藤佑樹, 猿渡洋, 韻律情報で条件付けされた非自己回帰型End-to-End日本語音声合成の検討, 情報処理学会研究報告, 2021-SLP-138, No. 16, pp. 1-6, 2021.

搜集汇总

数据集介绍

构建方式

ITA Corpus数据集的构建基于あみたろの声素材工房提供的日语朗读语音素材，结合了OpenJTalk工具生成的音素对齐标签和手动修正的语调信息。数据集中的音素标签包括每个音素的开始和结束时间，且特别标注了无声母音。语调信息则通过OpenJTalk的机械估计与人工修正相结合的方式生成，确保了语调标注的准确性。此外，数据集还提供了将音素与语调信息转换为numpy数组格式的脚本，便于后续分析。

特点

ITA Corpus数据集的特点在于其精细的语调标注和音素对齐信息。语调信息不仅包含了音高的上升和下降标记，还特别标注了语调核和语调边界，为研究日语语音的韵律特征提供了丰富的数据支持。数据集还提供了VOICEVOX项目文件，便于用户直观查看语调信息。此外，数据集的语调标注基于最新的语音合成研究，确保了标注的科学性和实用性。

使用方法

ITA Corpus数据集的使用方法多样，用户可以通过提供的脚本将音素和语调信息转换为numpy数组格式，便于进行语音合成或语音分析的研究。数据集还提供了VOICEVOX项目文件，用户可以通过该文件直观查看语调信息。此外，数据集附带的脚本支持将音素与语调信息分离，便于用户根据需求进行定制化分析。数据集的开放性和灵活性使其适用于多种语音研究场景。

背景与挑战

背景概述

ITA Corpus是由あみたろの声素材工房创建的一个专注于日语语音合成的数据集，主要包含音素对齐标签和语调信息。该数据集的核心研究问题在于如何通过精确的音素和语调信息来提升日语语音合成的自然度和准确性。数据集创建者y-chan利用OpenJTalk工具进行音素和语调的初步标注，并通过手动修正以提高数据的准确性。ITA Corpus的发布为日语语音合成领域的研究提供了宝贵的数据资源，特别是在非自回归端到端语音合成模型的研究中，该数据集的应用显著提升了模型的性能。

当前挑战

ITA Corpus在构建过程中面临的主要挑战包括音素和语调信息的精确标注。由于语调信息的复杂性，尤其是在日语中，语调的变化对语音的自然度有着重要影响，因此手动修正语调信息的过程既耗时又容易出错。此外，数据集中的音素标签依赖于OpenJTalk的自动标注，尽管经过手动修正，但仍可能存在误差，特别是在无声母音的标注上。这些挑战不仅影响了数据集的构建效率，也对后续的语音合成研究提出了更高的要求，尤其是在如何进一步提高标注精度和自动化程度方面。

常用场景

经典使用场景

ITA Corpus数据集在语音合成和语音识别领域具有广泛的应用。其提供的音素对齐标签和音调信息，为研究者提供了精确的语音数据，使得在日语语音合成中能够更准确地模拟自然语音的韵律特征。特别是在非自回归端到端日语语音合成系统中，该数据集被用于训练和验证模型，以提高合成语音的自然度和准确性。

解决学术问题

ITA Corpus解决了日语语音合成中音调和音素对齐的精确标注问题。通过提供详细的音素对齐标签和音调信息，研究者能够更有效地训练语音合成模型，减少合成语音中的不自然韵律现象。此外，该数据集还支持对日语语音的韵律特征进行深入研究，推动了语音合成技术的发展。

衍生相关工作

基于ITA Corpus，研究者们开发了多种先进的语音合成和识别模型。例如，藤井一貴等人利用该数据集进行了非自回归端到端日语语音合成的研究，提出了基于韵律信息条件化的合成方法。这些研究不仅推动了语音合成技术的发展，还为后续的研究提供了宝贵的参考和基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集