CN-Celeb

Name: CN-Celeb
Creator: 清华大学语音与语言技术中心
Published: 2019-10-31 16:25:45
License: 暂无描述

arXiv2019-10-31 更新2024-06-21 收录

下载链接：

http://project.cslt.org

下载链接

链接失效反馈

官方服务：

资源简介：

CN-Celeb是由清华大学语音与语言技术中心创建的大型中文语音识别数据集，专注于中国名人语音数据。该数据集包含超过130,000条来自1,000位中国名人的语音记录，覆盖11种不同的语音类型，如娱乐、采访、歌唱等。数据集的创建过程包括自动化数据提取和人工审核，确保数据质量。CN-Celeb主要用于研究在不受限制的环境下的语音识别技术，旨在解决现有技术在复杂环境中的性能问题。

CN-Celeb is a large-scale Chinese speech recognition dataset created by the Center for Speech and Language Technology at Tsinghua University, focusing on speech data of Chinese celebrities. This dataset contains over 130,000 speech recordings from 1,000 Chinese celebrities, covering 11 distinct speech types such as entertainment content, interviews, singing performances and more. The development process of the dataset includes automated data extraction and manual review to ensure high data quality. CN-Celeb is primarily used for researching speech recognition technologies in unrestricted environments, aiming to address the performance issues of existing technologies in complex scenarios.

提供机构：

清华大学语音与语言技术中心

创建时间：

2019-10-31

搜集汇总

数据集介绍

构建方式

CN-Celeb数据集的构建采用了自动化流程与人工校验相结合的方式。首先，研究人员从Bilibili等平台上下载了1000位中国名人的视频和图片，并手动将这些视频分类为11个不同的类型，包括娱乐、采访、唱歌、戏剧、电影、博客、直播、演讲、朗诵和广告等。然后，使用RetinaFace算法进行人脸检测和剪辑，并通过MOSSE人脸跟踪系统提取视频片段。接着，利用SyncNet模型进行说话人验证，并引入了基于说话人识别的双重校验步骤以提高在复杂类型中的鲁棒性。最后，由人工对自动流程产生的片段进行校验，以确保数据质量。

特点

CN-Celeb数据集具有三个显著特点：首先，它专门针对中国名人，包含了来自1000人的超过13万个语音片段；其次，它覆盖了11种不同类型的语音，包括娱乐、采访、唱歌、戏剧、电影、博客、直播、演讲、朗诵和广告等，这使得数据集更加具有代表性和挑战性；最后，与VoxCeleb数据集相比，CN-Celeb数据集包含了更多真实环境中的噪声、背景说话者、说话风格变化以及跨时间和跨频道的问题，从而更能反映真实生活中的说话人识别挑战。

使用方法

CN-Celeb数据集可用于说话人识别研究，以评估和开发原型系统。它既可以作为独立的数据源使用，也可以与其他数据集（如VoxCeleb）结合使用。在使用CN-Celeb数据集时，研究人员可以采用i-vector或x-vector等先进的说话人识别方法进行训练和评估。此外，数据集的多样性使得它适用于各种场景和应用的说话人识别研究。

背景与挑战

背景概述

随着语音识别技术在语音识别、身份验证等领域的广泛应用，对真实环境中语音识别的需求日益增长。传统的语音识别数据集大多在受控环境下收集，难以模拟现实世界中的复杂情况。为了解决这一问题，清华大学语音与语言技术中心的研究人员于2019年10月31日发布了CN-Celeb数据集。CN-Celeb是一个大规模的中文说话人识别数据集，包含超过130,000个来自1,000名中国名人的语音样本，覆盖了11种不同的真实场景。该数据集的发布为研究人员提供了一个宝贵的资源，用于研究和开发能够在不受限制的环境中进行说话人识别的技术。

当前挑战

CN-Celeb数据集的构建旨在解决在不受限制的环境中说话人识别的挑战。该数据集面临的主要挑战包括：1) 真实环境中的噪声和背景干扰，如环境噪声、背景交谈、音乐、欢呼声和笑声等；2) 存在强背景说话人和说话人重叠的情况，特别是在戏剧和电影场景中；3) 说话人具有不同类型的语音样本，导致说话风格存在显著差异；4) 同一说话人的语音样本可能在不同时间和不同设备上录制，导致跨时间和跨信道问题严重；5) 大多数语音样本较短，符合大多数实际应用场景，但可能导致不可靠的决策。这些挑战使得CN-Celeb数据集成为一个更具挑战性的说话人识别研究平台，有助于推动相关技术的进步。

常用场景

经典使用场景

在不受约束的条件下，语音识别技术在各种复杂场景下的性能评估与模型训练。CN-Celeb数据集因其包含的真实环境噪声、多种语料类型、不同说话风格和设备录制等特性，使得研究者能够更准确地评估现有语音识别技术在现实世界中的表现。此外，该数据集也用于模型的训练和优化，帮助提升语音识别技术在复杂场景下的鲁棒性和准确性。

衍生相关工作

CN-Celeb数据集的发布推动了语音识别领域的一系列相关研究。基于该数据集，研究者们提出了多种改进的语音识别模型，如深度神经网络（DNN）模型、i-vector模型和x-vector模型等。这些模型在CN-Celeb数据集上的实验结果表明，它们在复杂场景下的性能得到了显著提升。此外，CN-Celeb数据集还促进了语音识别技术在其他领域的应用，如语音合成、语音翻译等。

数据集最近研究