SPGISpeech 2.0

Name: SPGISpeech 2.0
Creator: Kensho Technologies,USA
Published: 2025-08-08 00:35:29
License: 暂无描述

arXiv2025-08-08 更新2025-08-09 收录

下载链接：

https://datasets.kensho.com/datasets/spgispeech2

下载链接

链接失效反馈

官方服务：

资源简介：

SPGISpeech 2.0是一个适用于金融领域说话人标记转录的数据集，由Kensho Technologies和NVIDIA Corporation创建。该数据集包含37,800小时的专业转录的收益电话录音，并提供了通话和说话人信息，方便多说话人自动语音识别（ASR）。数据集包含来自全球的多样化口音，涵盖了商业和金融相关的广泛主题。SPGISpeech 2.0旨在解决说话人标记转录任务中缺乏大型和多样化语料库的问题，并促进语音识别技术的进步。

SPGISpeech 2.0 is a dataset tailored for speaker-attributed transcription in the financial domain, co-developed by Kensho Technologies and NVIDIA Corporation. It contains 37,800 hours of professionally transcribed earnings call recordings, with accompanying call and speaker metadata to enable multi-speaker automatic speech recognition (ASR). The dataset features diverse accents from across the globe, covering a broad spectrum of business and finance-related topics. SPGISpeech 2.0 is designed to address the scarcity of large-scale, diverse corpora for speaker-attributed transcription tasks, and to advance the development of speech recognition technologies.

提供机构：

Kensho Technologies,USA

创建时间：

2025-08-08

搜集汇总

数据集介绍

构建方式

SPGISpeech 2.0数据集的构建基于专业转录的财务领域收益电话会议音频，包含3,780小时的英语多说话人语音片段。音频片段长度介于50至90秒之间，每个片段至少包含两名说话人和一次说话人切换。数据集通过Gentle和NeMo强制对齐流程进行时间戳标注，确保单词级对齐的准确性。此外，数据集还提供了说话人标签信息，包括41,593个唯一说话人ID，并通过算法生成标准化的文本转录，以处理数字和语言不流利等问题。

特点

SPGISpeech 2.0数据集在财务领域内提供了丰富的多说话人语音数据，其特点包括全球分布的L1和L2口音、多样化的商业和金融话题以及大量命名实体。与原始SPGISpeech相比，该数据集显著扩展了片段长度和说话人数量，并引入了说话人标签和单词级时间戳。此外，数据集还包含算法调整后的文本转录，以更真实地反映音频内容。这些特点使其成为支持说话人识别、说话人分离和说话人标签转录等多种任务的理想资源。

使用方法

SPGISpeech 2.0数据集适用于端到端自动语音识别（ASR）和说话人相关任务的研究。使用者可通过提供的音频片段、说话人标签和单词级时间戳进行模型训练和评估。数据集还支持多说话人ASR系统的开发，通过说话人标签和分段信息优化模型性能。研究人员可利用算法生成的标准化转录和原始转录进行对比实验，以探索不同转录风格对模型性能的影响。数据集的文件格式包括16kHz单声道音频、SegLST格式的说话人对齐文件以及JSON格式的单词级对齐信息，便于集成到现有研究流程中。

背景与挑战

背景概述

SPGISpeech 2.0是由Kensho Technologies和NVIDIA Corporation的研究团队于2025年推出的多说话人金融领域语音数据集，旨在推动说话人标记转录技术的发展。该数据集包含3,780小时的专业转录财报电话会议音频，覆盖41,593名独特说话人，支持端到端自动语音识别（ASR）和说话人分离、识别等任务。作为原始SPGISpeech数据集的扩展版本，SPGISpeech 2.0通过引入更长的音频片段（50-90秒）和细粒度的说话人标记，显著提升了数据多样性，成为目前规模最大的公开说话人识别语料库之一。其在金融语音处理、多说话人ASR等领域的基准测试中展现出重要价值，并为语音技术研究提供了高质量的跨学科数据资源。

当前挑战

构建SPGISpeech 2.0面临双重挑战：在领域问题层面，需解决金融场景下多说话人重叠语音的精准分离（平均每片段含2-7个说话人），以及专业术语（如公司代码、货币数值）与口语化表达的协同标注难题；在数据构建层面，长音频对齐的时序误差（需交叉验证Gentle与NeMo两种对齐工具）、财报电话的领域偏差（L1/L2口音覆盖不均衡），以及S&P Global专业转录规范与ASR字面转录要求的冲突（如删除填充词但需算法还原），均对数据质量提出严峻考验。此外，说话人匿名化处理与跨片段身份一致性维护，进一步增加了数据工程的复杂度。

常用场景

经典使用场景

SPGISpeech 2.0数据集在语音识别领域，特别是多说话人场景下的自动语音识别（ASR）和说话人标记转录任务中展现了卓越的应用价值。其核心优势在于提供了长达3,780小时的专业转录财务电话会议音频，涵盖了丰富的说话人多样性和复杂的语音环境。该数据集特别适用于开发端到端的ASR系统，尤其是在处理多说话人重叠语音和说话人切换的场景中表现出色。通过提供精确的说话人标记和时间对齐信息，SPGISpeech 2.0为研究者提供了一个理想的平台，用于训练和评估先进的语音识别和说话人分离模型。

衍生相关工作

SPGISpeech 2.0数据集的发布催生了一系列相关的研究工作和技术创新。例如，基于该数据集的Canary和Sortformer模型在说话人标记转录任务中取得了显著的性能提升。这些模型通过结合端到端的ASR和说话人分离技术，展示了在多说话人场景下的高效处理能力。此外，该数据集还激发了关于重叠语音处理、说话人识别和语音增强等方面的研究。研究者们利用SPGISpeech 2.0提供的丰富数据，开发了多种先进的算法和模型，进一步推动了语音识别和说话人分离领域的发展。

数据集最近研究