NIST SRE CTS Superset

Name: NIST SRE CTS Superset
Creator: 国家标准技术研究所
Published: 2021-08-16 22:39:23
License: 暂无描述

arXiv2021-08-16 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2108.07118v1

下载链接

链接失效反馈

官方服务：

资源简介：

NIST SRE CTS Superset是由国家标准技术研究所创建的大型电话语音识别数据集，旨在为研究社区提供用于训练和开发电话（窄带）语音识别系统的数据。该数据集包含超过6800名说话者的电话语音片段，语音时长均匀分布在10秒至60秒之间。数据集内容丰富，包含超过50种语言，主要来源于Switchboard和Mixer系列等先前的SRE数据集。创建过程中，使用语音活动检测器从原始会话中提取非重叠片段。该数据集主要应用于电话语音识别系统的训练和开发，以解决语音识别技术中的准确性和可靠性问题。

NIST SRE CTS Superset is a large-scale telephone speech recognition dataset developed by the National Institute of Standards and Technology (NIST). It is designed to provide the research community with data for training and developing telephone (narrowband) speech recognition systems. This dataset contains telephone speech segments from over 6800 speakers, with the duration of each segment uniformly distributed between 10 seconds and 60 seconds. It covers more than 50 languages, and is mainly sourced from prior SRE datasets such as the Switchboard and Mixer series. During its construction, voice activity detectors were employed to extract non-overlapping segments from raw conversations. This dataset is primarily utilized for the training and development of telephone speech recognition systems, aiming to address the accuracy and reliability issues in speech recognition technology.

提供机构：

国家标准技术研究所

创建时间：

2021-08-16

搜集汇总

数据集介绍

构建方式

NIST SRE CTS Superset数据集是通过对先前SRE数据集（SRE1996-2012）所使用的源语料库进行语音段提取构建而成。这些源语料库包括Greybeard语料库以及由Linguistic Data Consortium (LDC)收集的Switchboard和Mixer系列。从这些语料库中提取了大量的电话语音段，这些语音段的长度在[10s,60s]范围内均匀分布。每个语音段均从源会话/通话中提取，每个说话人至少有三个会话/通话（因此至少有三个语音段）。

使用方法

使用NIST SRE CTS Superset数据集进行说话人识别系统训练和评估。该数据集可用于开发、训练和测试电话（窄带）说话人识别系统。对于说话人识别系统的训练，可以使用该数据集中的语音段进行数据增强，如噪声降级和频谱-时间掩码。此外，还可以使用该数据集中的元数据信息，如性别和语言，进行说话人识别系统的辅助分析。

背景与挑战

背景概述

在语音识别领域，尤其是电话语音识别，大规模、高质量的语音数据集对于研究和开发高性能的语音识别系统至关重要。为了满足这一需求，美国国家标准与技术研究院（NIST）推出了NIST SRE CTS Superset数据集。该数据集创建于2021年，由Omid Sadjadi负责，旨在为研究社区提供一个大规模的、具有统一元数据的电话语音数据集，以有效训练和发展电话（窄带）语音识别系统。NIST SRE CTS Superset数据集包含了来自超过6800位说话者的电话语音片段，语音时长均匀分布在10秒到60秒之间。这些片段是从之前SRE数据集（SRE1996-2012）所使用的原始语料库中提取的，包括Linguistic Data Consortium（LDC）收集的Greybeard语料库以及Switchboard和Mixer系列。该数据集的发布对电话语音识别领域的研究具有重要意义，为研究者提供了宝贵的数据资源。

当前挑战

NIST SRE CTS Superset数据集在解决电话语音识别领域问题的同时，也面临一些挑战。首先，在解决领域问题方面，电话语音识别本身就是一个具有挑战性的任务，由于电话通话中可能存在的背景噪音、信道失真和说话人多样性等因素，识别系统需要具备较高的鲁棒性和准确性。其次，在构建过程中，如何从原始语料库中有效地提取和筛选高质量的语音片段，以及如何处理不同来源的语音数据，以确保数据集的多样性和平衡性，都是需要解决的挑战。此外，随着技术的发展，如何利用该数据集进行更深入的研究，探索新的语音识别技术和方法，也是未来需要面对的挑战。

常用场景

经典使用场景

在语音识别领域，尤其是电话语音识别系统中，NIST SRE CTS Superset数据集因其规模宏大和元数据统一的特点，成为了研究和开发的重要资源。该数据集提供了来自超过6800名说话者的电话语音片段，片段时长在10秒至60秒之间，这些数据是从先前SRE数据集的源语料库中提取的，包括Greybeard语料库以及由Linguistic Data Consortium (LDC)收集的Switchboard和Mixer系列。这些特性使得CTS Superset成为了训练和评估电话语音识别系统的理想选择。

解决学术问题

NIST SRE CTS Superset数据集解决了传统电话语音识别系统中数据规模小、多样性不足的问题。通过提供大量来自不同说话者和不同语言环境的语音数据，该数据集为研究人员提供了一个更加真实和具有挑战性的训练环境，有助于提高语音识别系统的准确性和鲁棒性。此外，CTS Superset的统一元数据格式也方便了不同研究团队之间的数据共享和系统比较，促进了该领域的研究进展。

实际应用

在实际应用中，NIST SRE CTS Superset数据集被广泛应用于电话语音识别系统的开发和优化。通过对该数据集的训练和测试，研究人员可以评估和改进语音识别算法的性能，提高系统的识别准确率和响应速度。此外，CTS Superset还用于开发针对特定语言或方言的语音识别系统，以满足不同地区和用户的需求。

数据集最近研究