SDBench (Speaker Diarization Benchmark)

Name: SDBench (Speaker Diarization Benchmark)
Creator: Argmax Inc, USA, University of California Los Angeles, USA
Published: 2025-07-22 09:11:26
License: 暂无描述

arXiv2025-07-22 更新2025-07-24 收录

下载链接：

https://github.com/argmaxinc/SDBench

下载链接

链接失效反馈

官方服务：

资源简介：

SDBench是一个开源的说话人分割基准测试工具包，它集成了13个多样化的数据集，并内置了工具，用于对各种在设备和服务器端系统中的说话人分割性能进行一致和细粒度的分析。该数据集包含了多个语言、音频领域和说话人分布的公共和专有来源的数据。通过SDBench，研究人员和实践者可以进行消融研究，并继续以类似我们构建SpeakerKit的方式改进他们的系统。

SDBench is an open-source speaker diarization benchmark toolkit. It integrates 13 diverse datasets and comes with built-in tools for conducting consistent and fine-grained performance analysis of speaker diarization systems across on-device and server-side deployments. The datasets included in SDBench cover data from public and proprietary sources spanning multiple languages, audio domains, and speaker distributions. Through SDBench, researchers and practitioners can perform ablation studies and further refine their systems in a manner analogous to how we built SpeakerKit.

提供机构：

Argmax Inc, USA, University of California Los Angeles, USA

创建时间：

2025-07-22

原始信息汇总

OpenBench（原SDBench）数据集概述

数据集基本信息

原始名称：SDBench
当前名称：OpenBench
演变说明：从专注于说话人日志（Speaker Diarization）的SDBench扩展为支持更广泛语音处理任务的OpenBench框架
相关论文：SDBench: A Comprehensive Benchmark Suite for Speaker Diarization

支持的任务类型

说话人日志：识别音频记录中"谁在什么时候说话"
语音转录：将语音转换为文本（ASR）
组合系统：说话人日志和转录的组合系统
流式转录：实时语音转文本
未来扩展：设计支持更多语音任务和其他模态

包含的数据集

说话人日志数据集

数据集名称	开箱即用	许可证	访问方式
earnings21	✅	CC BY-SA 4.0	已提供
msdwild	❌	MSDWild License Agreement	使用`common/download_dataset.py`脚本
icsi-meetings	✅	CC BY 4.0	已提供
aishell-4	✅	CC BY-SA 4.0	已提供
ali-meetings	✅	CC BY-SA 4.0	已提供
voxconverse	✅	CC BY 4.0	已提供
ava-avd	✅	MIT	已提供
ami-sdm	✅	CC BY 4.0	已提供
ami-ihm	✅	CC BY 4.0	已提供
american-life-podcast	❌	未公开	使用`common/download_dataset.py`脚本
dihard-III	❌	LDC License Agreement	需向LDC申请访问权限
callhome	❌	LDC License Agreement	需向LDC申请访问权限
ego-4d	❌	Ego4D License Agreement	需向Ego4D申请访问权限

其他数据集集合

数据集模式要求

说话人日志管道模式

必需列：
- audio：包含波形数组和采样率
- timestamps_start：段落的开始时间戳
- timestamps_end：段落的结束时间戳
- speakers：每个段落的说话人ID

转录管道模式

必需列：
- audio：包含波形数组和采样率
- transcript：转录文本中的单词列表

组合管道模式

必需列：
- audio：包含波形数组和采样率
- transcript：转录文本中的单词列表
- word_speakers：每个单词的说话人ID

流式转录管道模式

必需列：
- audio：包含波形数组和采样率
- text：参考转录文本

数据集下载说明

使用common/download_dataset.py脚本下载数据集
对于需要Hugging Face访问的数据集，需设置HF_TOKEN环境变量
对于需要LDC访问的数据集，需设置：
- DIHARD_DATASET_DIR
- CALLHOME_AUDIO_ROOT
下载的数据集存储在raw_datasets目录中

许可证说明

OpenBench代码使用MIT许可证
数据集使用各自的原始许可证
部分数据集有特殊访问要求或使用限制

搜集汇总

数据集介绍

构建方式

SDBench数据集通过整合13个多样化的公开及专有音频数据集构建而成，涵盖多语言、多领域及不同说话人分布场景。数据集采用标准化预处理流程，包括音频时长统计、重叠语音比例计算、说话人密度分析等关键特征提取，并通过Hugging Face平台发布兼容版本。其创新性地采用Whisper大型语言模型进行音频语言分类，支持跨语言评估场景的细粒度分析。

特点

该数据集核心特点体现在多维度的评估体系设计：首次实现说话人日志错误率(DER)与处理速度因子(Speed Factor)的双指标并行评估，覆盖13个数据集的4.8万小时音频数据。特别设计了说话人密度、重叠语音比例等12个元特征标注，支持跨数据集的对比分析。通过集成Pyannote等6个主流系统的基准测试结果，提供了服务器端与本地端系统的全面性能对照。

使用方法

使用该数据集需通过标准化接口加载预处理后的音频片段及标注文件，内置工具支持三阶段评估模式：说话人分割、特征提取和聚类分析的独立评测。研究者可通过修改配置文件选择评估指标（如是否包含宽容窗口）、调整滑动窗口策略（1-4秒步长），并支持扩展新的对比系统。数据集特别提供Oracle Segmenter和Oracle Clusterer两种理想化系统实现，便于进行阶段性错误根源分析。

背景与挑战

背景概述

SDBench（Speaker Diarization Benchmark）是由Argmax Inc与加州大学洛杉矶分校的研究团队于2025年推出的开源说话人日志基准测试套件，旨在解决说话人日志领域缺乏统一评估框架的痛点。该数据集整合了13个跨语言、跨场景的音频数据集（如CALLHOME、DIHARD-III等），覆盖会议记录、语音助手等多种应用场景。其创新性体现在内置了细粒度错误分析工具，支持对Pyannote等多阶段说话人日志系统的模块化性能评估，并通过标准化指标（如DER、Speed Factor）实现跨系统公平比较。作为领域内首个集成效率与精度双重评估维度的基准，SDBench为优化端侧推理系统SpeakerKit提供了关键支持，推动了说话人日志技术向实用化迈进。

当前挑战

说话人日志领域长期面临两大核心挑战：一是现有系统在不同数据集上表现波动显著，如AliMeetings等高重叠率场景的DER较结构化场景（Earnings-21）平均高出47%；二是构建标准化评估体系时需克服数据异构性问题，包括采样率差异（8kHz-48kHz）、说话人数量离散度（2-19人）及标注规范不统一。SDBench在构建过程中需设计动态滑动窗口策略以平衡冗余计算与分段精度，同时开发通用数据转换接口处理13个数据集的元数据冲突。此外，评估指标兼容性也构成挑战，例如需统一DER计算中是否包含容忍窗口（forgiveness collar）的争议，并建立跨服务器API与本地系统的时延可比度量方法。

常用场景

经典使用场景

SDBench作为开源说话人日志基准工具包，在语音处理领域被广泛应用于评估和比较不同说话人日志系统的性能。通过集成13个多样化数据集，该工具包能够支持细粒度的错误分析和跨领域性能评估。研究人员可以基于SDBench进行可重复的实验设计，快速执行消融研究以优化系统架构，例如在Pyannote v3基础上开发的SpeakerKit系统就通过该工具包实现了9.6倍的加速比。

衍生相关工作

围绕SDBench已衍生出多项创新研究，最具代表性的是基于Pyannote v3优化的SpeakerKit系统。该工作通过滑动窗口策略调整和分块级说话人嵌入技术，在保持DER基本不变的前提下大幅提升推理效率。此外，工具包的标准接口设计促进了NVIDIA NeMo、VBx等第三方系统的集成，形成了持续演进的说话人日志生态系统。相关技术已被Deepgram、AWS Transcribe等商业平台采纳作为性能优化基准。

数据集最近研究