大规模野外日语笑声语料库

Name: 大规模野外日语笑声语料库
Creator: 东京大学信息科学与技术研究生院
Published: 2023-05-26 21:17:11
License: 暂无描述

arXiv2023-05-26 更新2024-07-24 收录

下载链接：

https://sites.google.com/site/shinnosuketakamichi/research-topics/laughter_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

本研究提出了一种名为‘大规模野外日语笑声语料库’的数据集，由东京大学信息科学与技术研究生院创建，包含7489条单人笑声录音，总时长约3.5小时。该数据集通过互联网收集，经过人工标注和噪音去除处理，确保数据质量。数据集创建过程中，使用了预训练的自我监督学习模型HuBERT和k-means聚类技术来提取和转换笑声特征。该数据集主要应用于笑声合成领域，旨在解决现有笑声合成技术中数据不足和表示方法不当的问题。

This study proposes a dataset named *Large-scale Spontaneous Japanese Laughter Corpus*, constructed by the Graduate School of Information Science and Technology, The University of Tokyo. It contains 7,489 single-person laughter recordings with a total duration of approximately 3.5 hours. This dataset was collected via the Internet, and underwent manual annotation and noise reduction processing to ensure data quality. During the dataset development, pre-trained self-supervised learning model HuBERT and k-means clustering technique were utilized to extract and transform laughter features. This dataset is primarily applied in the field of laughter synthesis, aiming to address the issues of insufficient data and inappropriate feature representation in existing laughter synthesis technologies.

提供机构：

东京大学信息科学与技术研究生院

创建时间：

2023-05-21

搜集汇总

数据集介绍

构建方式

在非语言表达合成领域，数据稀缺长期制约着笑声合成研究的发展。为解决这一问题，该大规模野外日语笑声语料库通过系统化流程构建：首先依据维基百科名单在YouTube平台爬取约一万个候选视频，利用预训练笑声检测模型筛选出约1500个可能包含笑声的视频；随后通过众包听力测试，将视频标注为单人笑声、多人笑声及其他类别（如言语笑声）；接着人工从标注为单人笑声的视频中分割出笑声片段，并过滤非日语内容及背景噪声；最终采用基于深度神经网络的源分离模型Demucs提取人声，获得纯净的单人笑声音频。整个语料库包含来自470位发言者的7489段笑声片段，总时长约3.5小时，是目前已知规模最大、适用于笑声合成的开源单人笑声数据集。

特点

该数据集的核心特点在于其“野外”采集属性与大规模单说话者结构。所有音频均源自真实网络环境，涵盖了自然对话中笑声的多样声学特征与情感表达，避免了实验室录制可能引入的人工化与单一性。数据经过严格筛选，确保每段音频均为单人发声，排除了多人重叠笑声与言语笑声的干扰，为模型训练提供了高质量、纯净的输入。此外，数据集时长达到3.5小时，显著超越了以往同类开源资源，为数据驱动的深度学习方法提供了充足的训练样本。其开源特性进一步促进了笑声合成领域的可复现研究与技术迭代。

使用方法

该数据集主要服务于笑声合成模型的训练与评估。研究人员可将其用于训练基于伪语音令牌的合成系统：首先利用自监督学习模型HuBERT从笑声音频中提取连续特征，再通过k-means聚类将其离散化为伪语音令牌序列，以此作为笑声的符号化表示；随后，可将这些令牌序列输入至文本到语音模型中进行端到端的笑声合成。此外，基于令牌序列还可训练令牌语言模型，实现无条件的笑声生成。在评估方面，数据集提供了标准的训练、验证与测试划分，支持通过梅尔倒谱失真、基频误差等客观指标，以及平均意见得分、相似度得分等主观听测实验，全面衡量合成笑声的自然度与相似性。

背景与挑战

背景概述

在语音合成领域，非语言表达如笑声的合成一直是提升系统自然度与情感表现力的关键挑战。东京大学的研究团队于2023年提出了大规模野外日语笑声语料库，该语料库包含约3.5小时的单说话者笑声数据，是目前已知规模最大的专用于笑声合成的开放资源。该研究旨在解决非语言表达合成中数据稀缺与表征方法不足的核心问题，通过引入伪音素标记作为笑声的离散表征，推动了笑声合成技术的发展，并为虚拟代理等应用提供了更丰富的交互可能性。

当前挑战

该数据集面临的挑战主要体现在两个方面：首先，在领域问题层面，笑声合成需克服非语言表达固有的复杂性与多样性，传统方法依赖人工标注音素或抽象表征，导致合成结果可控性差且自然度有限；其次，在构建过程中，数据收集面临野外音频中多说话者笑声、语音笑声混合及背景噪声的干扰，需通过预训练笑声检测模型与人工标注相结合进行筛选，并利用源分离技术降噪，以确保语料库的纯净度与适用性。

常用场景

经典使用场景

在语音合成与情感计算领域，大规模野外日语笑声语料库为笑声合成研究提供了关键的数据支撑。该数据集通过从互联网视频中采集单说话者笑声片段，构建了长达3.5小时的高质量语料，成为目前规模最大的开源笑声合成专用资源。其经典应用场景在于训练基于伪音素标记的深度神经网络模型，实现从离散符号序列到自然笑声波形的端到端生成，为探索非语言表达合成机制奠定了实验基础。

衍生相关工作

基于该数据集与伪音素标记框架，研究者进一步拓展了非语言表达生成的边界。经典衍生工作包括训练标记语言模型实现无条件笑声生成，探索了笑声序列的概率建模与创造性合成。此外，该表征方法已被借鉴至其他非语言声音（如哭泣、惊叹）的合成任务中，促进了跨情感声学事件的统一建模研究，并为结合多模态信息的复合表达生成提供了技术启示。

数据集最近研究