SPGISpeech 2.0
收藏arXiv2025-08-08 更新2025-08-09 收录
下载链接:
https://datasets.kensho.com/datasets/spgispeech2
下载链接
链接失效反馈官方服务:
资源简介:
SPGISpeech 2.0是一个适用于金融领域说话人标记转录的数据集,由Kensho Technologies和NVIDIA Corporation创建。该数据集包含37,800小时的专业转录的收益电话录音,并提供了通话和说话人信息,方便多说话人自动语音识别(ASR)。数据集包含来自全球的多样化口音,涵盖了商业和金融相关的广泛主题。SPGISpeech 2.0旨在解决说话人标记转录任务中缺乏大型和多样化语料库的问题,并促进语音识别技术的进步。
SPGISpeech 2.0 is a dataset tailored for speaker-attributed transcription in the financial domain, co-developed by Kensho Technologies and NVIDIA Corporation. It contains 37,800 hours of professionally transcribed earnings call recordings, with accompanying call and speaker metadata to enable multi-speaker automatic speech recognition (ASR). The dataset features diverse accents from across the globe, covering a broad spectrum of business and finance-related topics. SPGISpeech 2.0 is designed to address the scarcity of large-scale, diverse corpora for speaker-attributed transcription tasks, and to advance the development of speech recognition technologies.
提供机构:
Kensho Technologies,USA
创建时间:
2025-08-08
搜集汇总
数据集介绍

构建方式
SPGISpeech 2.0数据集的构建基于专业转录的财务领域收益电话会议音频,包含3,780小时的英语多说话人语音片段。音频片段长度介于50至90秒之间,每个片段至少包含两名说话人和一次说话人切换。数据集通过Gentle和NeMo强制对齐流程进行时间戳标注,确保单词级对齐的准确性。此外,数据集还提供了说话人标签信息,包括41,593个唯一说话人ID,并通过算法生成标准化的文本转录,以处理数字和语言不流利等问题。
特点
SPGISpeech 2.0数据集在财务领域内提供了丰富的多说话人语音数据,其特点包括全球分布的L1和L2口音、多样化的商业和金融话题以及大量命名实体。与原始SPGISpeech相比,该数据集显著扩展了片段长度和说话人数量,并引入了说话人标签和单词级时间戳。此外,数据集还包含算法调整后的文本转录,以更真实地反映音频内容。这些特点使其成为支持说话人识别、说话人分离和说话人标签转录等多种任务的理想资源。
使用方法
SPGISpeech 2.0数据集适用于端到端自动语音识别(ASR)和说话人相关任务的研究。使用者可通过提供的音频片段、说话人标签和单词级时间戳进行模型训练和评估。数据集还支持多说话人ASR系统的开发,通过说话人标签和分段信息优化模型性能。研究人员可利用算法生成的标准化转录和原始转录进行对比实验,以探索不同转录风格对模型性能的影响。数据集的文件格式包括16kHz单声道音频、SegLST格式的说话人对齐文件以及JSON格式的单词级对齐信息,便于集成到现有研究流程中。
背景与挑战
背景概述
SPGISpeech 2.0是由Kensho Technologies和NVIDIA Corporation的研究团队于2025年推出的多说话人金融领域语音数据集,旨在推动说话人标记转录技术的发展。该数据集包含3,780小时的专业转录财报电话会议音频,覆盖41,593名独特说话人,支持端到端自动语音识别(ASR)和说话人分离、识别等任务。作为原始SPGISpeech数据集的扩展版本,SPGISpeech 2.0通过引入更长的音频片段(50-90秒)和细粒度的说话人标记,显著提升了数据多样性,成为目前规模最大的公开说话人识别语料库之一。其在金融语音处理、多说话人ASR等领域的基准测试中展现出重要价值,并为语音技术研究提供了高质量的跨学科数据资源。
当前挑战
构建SPGISpeech 2.0面临双重挑战:在领域问题层面,需解决金融场景下多说话人重叠语音的精准分离(平均每片段含2-7个说话人),以及专业术语(如公司代码、货币数值)与口语化表达的协同标注难题;在数据构建层面,长音频对齐的时序误差(需交叉验证Gentle与NeMo两种对齐工具)、财报电话的领域偏差(L1/L2口音覆盖不均衡),以及S&P Global专业转录规范与ASR字面转录要求的冲突(如删除填充词但需算法还原),均对数据质量提出严峻考验。此外,说话人匿名化处理与跨片段身份一致性维护,进一步增加了数据工程的复杂度。
常用场景
经典使用场景
SPGISpeech 2.0数据集在语音识别领域,特别是多说话人场景下的自动语音识别(ASR)和说话人标记转录任务中展现了卓越的应用价值。其核心优势在于提供了长达3,780小时的专业转录财务电话会议音频,涵盖了丰富的说话人多样性和复杂的语音环境。该数据集特别适用于开发端到端的ASR系统,尤其是在处理多说话人重叠语音和说话人切换的场景中表现出色。通过提供精确的说话人标记和时间对齐信息,SPGISpeech 2.0为研究者提供了一个理想的平台,用于训练和评估先进的语音识别和说话人分离模型。
衍生相关工作
SPGISpeech 2.0数据集的发布催生了一系列相关的研究工作和技术创新。例如,基于该数据集的Canary和Sortformer模型在说话人标记转录任务中取得了显著的性能提升。这些模型通过结合端到端的ASR和说话人分离技术,展示了在多说话人场景下的高效处理能力。此外,该数据集还激发了关于重叠语音处理、说话人识别和语音增强等方面的研究。研究者们利用SPGISpeech 2.0提供的丰富数据,开发了多种先进的算法和模型,进一步推动了语音识别和说话人分离领域的发展。
数据集最近研究
最新研究方向
在金融领域自动语音识别(ASR)技术快速发展的背景下,SPGISpeech 2.0数据集的推出为多说话人标记转录研究提供了重要资源。该数据集包含3780小时的财务电话会议音频及其专业转录文本,特别强调说话人识别和标记转录任务。前沿研究主要聚焦于如何利用该数据集提升端到端ASR模型的性能,尤其是在多说话人环境下。近期,研究者们通过结合说话人监督学习和先进的模型架构(如Sortformer),在说话人标记转录任务上取得了显著进展。此外,该数据集还促进了说话人日志(speaker diarization)和说话人识别(speaker recognition)技术的融合,为复杂场景下的语音处理提供了新的解决方案。其广泛的应用前景包括金融领域的实时会议转录、智能客服系统以及多模态语音分析等。
相关研究论文
- 1SPGISpeech 2.0: Transcribed multi-speaker financial audio for speaker-tagged transcriptionKensho Technologies,USA · 2025年
以上内容由遇见数据集搜集并总结生成



