SHAL

Name: SHAL
Creator: 上海声学实验室，中国科学院，上海
Published: 2023-12-04 13:52:59
License: 暂无描述

arXiv2023-12-04 更新2024-07-24 收录

下载链接：

https://openslr.org/

下载链接

链接失效反馈

官方服务：

资源简介：

SHAL数据集是由上海声学实验室创建，专注于中文数字字符串的长文本依赖语音验证。该数据集包含约72.3小时的音频，共46,583个文件，格式为44.1kHz、16位PCM-WAV。数据集主要关注10至40岁的说话者，性别平衡。创建过程中，使用了Tacotron2和HiFi-GAN进行数据增强，通过转移学习和个性化TTS模型，将数据集扩展至原大小的六倍。SHAL数据集适用于金融支付等领域的身份验证，旨在解决文本依赖语音验证中的数据稀缺和领域不匹配问题。

The SHAL Dataset was developed by the Shanghai Acoustic Laboratory, focusing on long-text-dependent speech verification for Chinese digital strings. This dataset contains approximately 72.3 hours of audio, totaling 46,583 files, with the format of 44.1kHz, 16-bit PCM-WAV. It mainly targets speakers aged 10 to 40, with a balanced gender distribution. During the dataset creation, data augmentation was conducted using Tacotron2 and HiFi-GAN, and the dataset was expanded to six times its original size via transfer learning and personalized TTS models. The SHAL Dataset is suitable for identity verification scenarios such as financial payment, aiming to address the problems of data scarcity and domain mismatch in text-dependent speech verification.

提供机构：

上海声学实验室，中国科学院，上海

创建时间：

2023-12-04

搜集汇总

数据集介绍

构建方式

在语音识别与说话人验证领域，构建高质量且规模充足的数据集是推动技术进步的关键。SHAL数据集的构建过程体现了对文本相关说话人验证任务特殊需求的深刻理解。该数据集通过采集60位年龄在10至40岁之间的说话人录音，每人针对六种不同停顿节奏的中文数字串文本各录制25个样本，形成了包含约72.3小时、46,583个音频文件的原始语料库。为了克服固定文本数据稀缺的挑战，研究团队进一步采用了基于Tacotron2和HiFi-GAN的语音合成技术进行数据增强，为每位说话人生成个性化的语音合成模型，并结合0.9倍和1.1倍的速度扰动策略，最终将数据集规模扩展至原始数据的六倍左右。这种结合真实录音与高质量合成语音的构建方式，有效缓解了文本相关任务中数据不足的瓶颈。

特点

SHAL数据集的核心特点在于其专注于长文本中文数字串的语音内容，这为研究文本相关说话人验证在金融支付等实际场景中的应用提供了理想的测试平台。数据集中包含六种不同分段节奏的数字序列文本，例如“8-1-7-3-2-5-9-6-0-4”及其带有不同停顿标记的变体，这种设计使得研究者能够系统探究语音节奏与停顿对模型文本序列敏感性的影响。所有音频均以44.1kHz采样率和16位PCM-WAV格式保存，确保了信号的高保真度。数据集的说话人年龄与性别分布经过精心平衡，增强了其在人口统计学上的代表性。相较于“Hi-Mia”等短口令数据集，SHAL的长数字串文本提供了更丰富的声学变化和更接近实际应用的语音模式。

使用方法

SHAL数据集主要服务于文本相关说话人验证模型的训练与评估。研究人员可按照论文中描述的8:2比例划分训练集与测试集，进行端到端系统开发。数据集支持多种实验设置，包括评估数据增强策略的效果、比较不同池化方法的性能以及探索说话人嵌入与文本嵌入的融合机制。在使用时，通常先提取梅尔频率倒谱系数作为声学特征，然后分别通过改进的Transformer网络提取文本嵌入，通过集成滑动窗口注意力统计池化的ECAPA-TDNN网络提取说话人嵌入，最后采用加法、乘法或卷积神经网络融合策略结合两类嵌入进行联合优化。该数据集还可用于验证多尺度池化方法在长文本场景下的优越性，以及评估模型对文本顺序与节奏变化的鲁棒性。

背景与挑战

背景概述

在语音生物识别领域，文本相关说话人验证因其在固定文本场景下的优越性能而备受关注。SHAL数据集由中国科学院声学研究所与上海科技大学的研究团队于近期创建，旨在解决长文本数字串场景下的身份认证问题，如金融支付等实际应用。该数据集包含约72.3小时的中文数字串语音，采样率为44.1kHz，涵盖了不同年龄与性别平衡的说话人群体，并公开于Open-SLR平台。其核心研究在于探索长文本序列中语音节奏、停顿等因素对模型文本顺序敏感性的影响，进而推动端到端文本相关说话人验证框架的发展。通过引入细粒度多尺度池化与解耦表征等创新方法，该数据集为领域提供了重要的基准资源，显著提升了模型在Hi-Mia与SHAL等测试集上的等错误率性能。

当前挑战

SHAL数据集所应对的核心挑战在于文本相关说话人验证中长文本序列带来的模型敏感性下降问题。当语音文本长度增加时，句子节奏与停顿等变异因素会干扰模型对文本顺序的判别能力，导致传统池化方法难以捕捉时序上的关键特征。在构建过程中，大规模固定文本语音数据的采集面临实际困难，需要平衡说话人多样性、文本内容一致性以及语音质量等多重要求。此外，数据稀缺性迫使研究团队采用Tacotron2与HiFi-GAN进行语音合成增强，但合成语音与真实语音之间的域失配问题仍需精细处理。这些挑战共同推动了对多尺度池化策略与解耦表征方法的深入研究，以提升模型在复杂长文本场景下的鲁棒性与准确性。

常用场景

经典使用场景

在语音身份验证领域，SHAL数据集作为中文长数字串语音语料库，其经典使用场景聚焦于文本相关说话人验证（TD-SV）模型的训练与评估。该数据集通过包含不同停顿节奏的数字串发音，如“8-1-7-3-2-5-9-6-0-4”及其分段变体，模拟了金融支付等实际场景中用户朗读动态验证码的过程。研究者利用SHAL探究长文本序列下，模型对文本顺序的敏感性以及语音节奏变化对验证性能的影响，为端到端TD-SV系统提供了贴近现实应用的基准测试环境。

衍生相关工作

围绕SHAL数据集衍生的经典工作主要集中于端到端文本相关说话人验证框架的创新。其提出的滑动窗口注意力统计池化（SWASP）与注意力统计池化（ASP）结合的多尺度池化方法，显著提升了在Hi-Mia和SHAL数据集上的等错误率性能。此外，受语音识别引擎We-Net与说话人-文本因子化网络启发，该工作构建了文本嵌入与说话人嵌入的双重表示网络，并通过后端融合策略实现了零等错误率的验证效果，为后续联合优化语音内容与说话人身份的研究提供了重要范式。

数据集最近研究