large-scale in-the-wild Japanese laughter corpus

github2023-07-17 更新2024-05-31 收录

下载链接：

https://github.com/Aria-K-Alethia/laughter-synthesis

下载链接

链接失效反馈

官方服务：

资源简介：

我们提供了一个大规模的野外日语笑声语料库和一种笑声合成方法。此前的笑声合成工作不仅缺乏数据，也缺乏适当的笑声表示方法。为了解决这些问题，我们首先提出了一个包含3.5小时笑声的野外语料库，据我们所知，这是为笑声合成设计的最庞大的笑声语料库。然后，我们提出了伪音素令牌（PPTs）来通过一系列离散令牌表示笑声，这些令牌是通过在从笑声中提取的特征上训练一个预训练的自监督模型上的聚类模型获得的。笑声可以通过将PPTs输入到文本到语音系统中来合成。我们还展示了PPTs可以用于训练一个语言模型，用于无条件笑声生成。综合主观和客观评估的结果表明，所提出的方法显著优于基线方法，并且可以无条件生成自然的笑声。

We present a large-scale in-the-wild Japanese laughter corpus and a method for laughter synthesis. Previous efforts in laughter synthesis have been hindered not only by a lack of data but also by the absence of appropriate methods for representing laughter. To address these issues, we first introduce a corpus containing 3.5 hours of in-the-wild laughter, which, to our knowledge, is the most extensive laughter corpus designed for laughter synthesis. Subsequently, we propose pseudo-phoneme tokens (PPTs) to represent laughter through a series of discrete tokens, obtained by training a clustering model on features extracted from laughter using a pre-trained self-supervised model. Laughter can be synthesized by inputting PPTs into a text-to-speech system. We also demonstrate that PPTs can be utilized to train a language model for unconditional laughter generation. Comprehensive subjective and objective evaluations indicate that the proposed method significantly outperforms baseline approaches and is capable of generating natural laughter unconditionally.

创建时间：

2023-05-21

原始信息汇总

数据集概述

数据集名称

Laughter Corpus

数据集描述

该数据集是一个大规模的日语笑声语料库，包含约3.5小时的笑声数据，是目前为止用于笑声合成的最大笑声语料库。

数据集用途

用于笑声合成研究，特别是结合伪音素标记（PPTs）进行笑声的合成和无条件生成。

数据集特点

通过预训练的自监督模型提取特征，并使用聚类模型生成伪音素标记（PPTs）来表示笑声。
支持通过文本到语音系统进行笑声合成，并可用于训练语言模型进行无条件笑声生成。

数据集评估

通过综合的主观和客观评估，证明该方法在笑声合成上显著优于基线方法，能够生成自然的无条件笑声。

数据集获取

数据集可通过以下链接下载：Laughter Corpus

数据集使用方法

数据集需下载并放置在指定目录下，通过预处理脚本进行数据准备，然后用于训练TTS模型和语言模型。

数据集引用信息

若使用此数据集，请引用以下论文：

@inproceedings{xin2023laughter title={Laughter Synthesis using Pseudo Phonetic Tokens with a Large-scale In-the-wild Laughter Corpus}, author={Xin, Detai and Takamichi, Shinnosuke and Morimatsu, Ai and Saruwatari, Hiroshi}, booktitle={Proc. Interspeech}, year={2023} }

搜集汇总

数据集介绍

构建方式

该数据集的构建基于大规模自然场景下的日语笑声收集，总计包含3.5小时的笑声数据，是目前为止专为笑声合成设计的最大规模语料库。研究者通过预训练的自监督模型提取笑声特征，并利用聚类模型生成伪音素标记（PPTs），以此作为笑声的离散表示。这一方法不仅解决了以往笑声合成中数据不足的问题，还为笑声的表示提供了新的思路。

特点

该数据集的特点在于其规模之大以及数据的自然性。所有笑声均采集自真实场景，确保了数据的多样性和真实性。此外，通过伪音素标记（PPTs）的引入，笑声得以被有效地离散化表示，为后续的合成任务提供了便利。数据集还支持无条件笑声生成，进一步扩展了其应用场景。

使用方法

使用该数据集时，用户需首先克隆代码库并安装相关依赖。随后，下载预训练的声码器并将其放置在指定目录下。通过运行预处理脚本，用户可以将原始笑声数据转换为模型可处理的格式。训练阶段，用户可选择使用默认设置训练基于伪音素标记的文本到语音（TTS）模型，或训练用于无条件笑声生成的语言模型。训练完成后，用户可通过提供的脚本生成新的笑声样本或对模型进行评估。

背景与挑战

背景概述

在语音合成领域，笑声的合成一直是一个具有挑战性的研究方向。2023年，由Detai Xin、Shinnosuke Takamichi等研究人员在INTERSPEECH会议上提出了一个大规模的真实场景日本笑声语料库（large-scale in-the-wild Japanese laughter corpus），并开发了一种基于伪音素标记（Pseudo Phonetic Tokens, PPTs）的笑声合成方法。该语料库包含3.5小时的真实场景笑声数据，是目前为止为笑声合成设计的最大的语料库。通过训练聚类模型从预训练的自监督模型中提取特征，研究人员将笑声表示为离散的伪音素标记序列，并利用这些标记进行笑声合成。该研究不仅填补了笑声合成领域的数据空白，还为笑声的表示和生成提供了新的技术路径，显著提升了合成笑声的自然度和多样性。

当前挑战

该数据集的研究面临多重挑战。首先，笑声作为一种复杂的非语言声音，其多样性和动态性使得数据采集和标注极为困难。真实场景中的笑声往往伴随着背景噪音和说话者的其他声音，这增加了数据清洗和预处理的难度。其次，传统的语音合成方法难以有效捕捉笑声的独特特征，导致合成效果不自然。为了解决这一问题，研究人员提出了伪音素标记（PPTs）作为笑声的表示方式，但其生成和优化过程需要大量的计算资源和复杂的模型训练。此外，如何在不依赖文本输入的情况下生成高质量的无条件笑声，也是该领域的一个重要挑战。这些技术难题不仅考验了数据集的构建质量，也对后续的模型设计和训练提出了更高的要求。

常用场景

经典使用场景

在语音合成和情感计算领域，大规模自然场景下的笑声数据集为研究者提供了丰富的资源。该数据集特别适用于笑声合成任务，通过伪音素标记（PPTs）技术，能够将笑声表示为离散的符号序列，进而输入到文本到语音系统中进行合成。这一方法不仅提升了笑声合成的自然度，还为无条件笑声生成提供了新的可能性。

实际应用

在实际应用中，该数据集可广泛应用于情感计算、语音助手、虚拟角色设计等领域。例如，在语音助手中加入自然的笑声合成功能，能够显著提升用户体验，增强人机交互的情感共鸣。此外，虚拟角色设计中的笑声合成也能够为游戏、动画等娱乐产业带来更真实的情感表达。

衍生相关工作

该数据集衍生了多项经典工作，特别是在笑声合成和无条件笑声生成领域。基于伪音素标记（PPTs）的语言模型训练方法，为无条件笑声生成提供了新的技术路径。此外，该数据集还启发了更多关于情感计算和语音合成的研究，推动了相关领域的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集