SHALCAS22A (简称SHAL)

Name: SHALCAS22A (简称SHAL)
Creator: 上海声学实验室
Published: 2024-05-21 12:44:59
License: 暂无描述

arXiv2024-05-21 更新2024-07-29 收录

下载链接：

https://openslr.org/138/

下载链接

链接失效反馈

官方服务：

资源简介：

SHALCAS22A（简称SHAL）是由上海声学实验室创建的中文数值字符语料库，专为10至40岁年龄段的说话者设计，旨在支持金融交易中的说话者验证。该数据集包含约72.3小时的音频，共计46,583个文件，采用44.1kHz、16位PCM-WAV格式。创建过程中，选取了60名个体，每人提供25种不同文本类型的样本。SHAL数据集通过使用Tacotron2和HiFi-GAN进行数据增强，显著增加了数据多样性。该数据集主要应用于文本依赖型说话者验证（TD-SV），特别是在需要高精度等错误率（EER）表现的金融支付身份验证场景中。

SHALCAS22A (abbreviated as SHAL) is a Chinese numeric character corpus developed by the Shanghai Acoustic Laboratory, specifically designed for speakers aged 10 to 40 years old, with the goal of supporting speaker verification in financial transactions. This dataset contains approximately 72.3 hours of audio, totaling 46,583 files, formatted as 44.1kHz, 16-bit PCM-WAV. During its construction, 60 individual speakers were recruited, each providing samples for 25 distinct text types. The SHAL dataset adopts Tacotron2 and HiFi-GAN for data augmentation, which significantly improves the diversity of the dataset. It is primarily applied to text-dependent speaker verification (TD-SV), especially in financial payment identity verification scenarios that require high equal error rate (EER) performance.

提供机构：

上海声学实验室

创建时间：

2024-05-11

搜集汇总

数据集介绍

构建方式

在语音验证领域，文本相关说话人验证任务常受限于固定文本语料的稀缺性。SHALCAS22A数据集的构建针对中文数字串场景，通过系统化采集流程实现：选取60名年龄在10-40岁之间的说话人，每位说话人针对六种不同停顿节奏的数字串文本各录制25条样本，最终形成包含46,583条音频、总时长约72.3小时的语音库。所有音频均以44.1kHz采样率、16位PCM-WAV格式保存，确保了原始语音信号的高保真度。

特点

该数据集的核心特征体现在其高度结构化的文本设计上。六类文本标签（d001-d006）对应着不同数字分组与停顿模式的组合，如“8-1-7-3-2-5-9-6-0-4”及其带有竖线分隔的变体，这种设计精准模拟了金融交易场景中常见的数字朗读模式。数据集在说话人年龄分布与性别比例上保持平衡，每条语音时长严格控制在3-6秒之间，形成了标准化的短语音验证样本。文本内容的固定性与节奏变化的多样性，为研究文本与说话人特征的解耦提供了理想实验环境。

使用方法

在具体应用中，该数据集主要服务于端到端文本相关说话人验证系统的训练与评估。研究人员可基于原始语音提取MFCC特征，并利用论文提出的数据增强策略——结合Tacotron2与HiFi-GAN的语音合成技术以及0.9x/1.1x语速扰动——将数据规模扩展六倍。在模型构建阶段，可分别采用增强Transformer架构提取文本嵌入，以及集成滑动窗口注意力统计池化（SWASP）的ECAPA-TDNN网络提取说话人嵌入，最后通过加法、乘法或CNN等融合策略整合双路特征。评估时通常按8:2比例划分训练集与测试集，以等错误率（EER）和最小检测代价函数（minDCF）作为核心性能指标。

背景与挑战

背景概述

在语音识别与生物特征认证领域，文本相关说话人验证技术因其在固定文本场景下的优异性能而备受关注，尤其在金融交易身份验证等安全敏感应用中展现出重要价值。SHALCAS22A数据集由中国科学院声学研究所上海声学实验室的研究团队于2022年创建，旨在解决中文数字串语音数据在说话人验证任务中的稀缺问题。该数据集包含约72.3小时的音频，涵盖60位年龄在10至40岁之间的说话人，每位说话人录制了六种不同停顿节奏的数字串语音样本。通过引入端到端的说话人验证框架，该数据集不仅为文本相关说话人验证提供了高质量的中文语音资源，还推动了语音嵌入提取与多尺度池化方法的研究进展，对提升金融支付场景中的身份认证精度具有显著影响力。

当前挑战

SHALCAS22A数据集所针对的文本相关说话人验证任务面临双重挑战：在领域问题层面，固定文本要求导致数据稀缺性突出，模型需在有限语音样本中准确分离说话人身份与文本内容信息，同时克服朗读节奏和停顿变化对语音特征一致性的干扰；在构建过程中，研究团队需平衡说话人年龄与性别分布，确保数据集的代表性与泛化能力，并通过Tacotron2与HiFi-GAN合成技术增强数据多样性，但语音合成质量与原始语音的声学特征对齐仍需精细调控。此外，长数字串语音的时序建模与局部特征捕获要求设计新型池化方法，以兼顾文本相关任务的局部敏感性与说话人验证的全局表征需求。

常用场景

经典使用场景

在语音身份验证领域，SHALCAS22A数据集主要应用于文本相关的说话人验证研究。该数据集收录了中文数字串的语音样本，特别适用于金融支付场景中的身份核验。研究者通过该数据集能够构建端到端的说话人验证系统，其中语音内容被限定为特定的数字序列，从而在固定文本条件下实现高精度的说话人识别。这种设定模拟了真实世界中用户朗读随机数字串进行身份确认的流程，为模型在文本依赖场景下的性能评估提供了标准化基准。

衍生相关工作

围绕SHALCAS22A数据集，已衍生出一系列经典的语音处理研究工作。原论文提出的端到端文本相关说话人验证框架，集成了基于Transformer的文本嵌入提取器和融合滑动窗口注意力统计池化的说话人嵌入提取器，成为该数据集上的基准方法。相关工作进一步探索了多种数据增强策略，如利用语音转换技术扩充语料，以应对文本固定导致的样本不足。此外，基于该数据集，研究者们对多种融合策略（如加法、乘法或CNN融合）进行了系统比较，以优化说话人与文本嵌入的联合表示，这些探索为后续文本相关说话人验证系统的设计提供了重要参考。

数据集最近研究