ETAPE, LINAGORA, SUMM-RE, Simsamu, VoxConverse

github2025-03-12 更新2025-03-13 收录

下载链接：

https://github.com/linagora-labs/speaker-diarization-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

ETAPE: 3个广播录音的语料库。LINAGORA: 8个会议录音的语料库。SUMM-RE: 34个模拟会议的语料库，每个会议大约30分钟，有4个参与者（有时只有3个发言）。Simsamu: 23个模拟紧急呼叫的语料库，有2个（有时3个）参与者。唯一一个原始文件采样率为8kHz的语料库（其他使用16 kHz）。VoxConverse: 232个YouTube视频的语料库。这个基准通常用于评估说话人分离。

ETAPE: A corpus of 3 broadcast audio recordings. LINAGORA: A corpus of 8 meeting audio recordings. SUMM-RE: A corpus containing 34 simulated meetings, each approximately 30 minutes in duration with 4 participants (sometimes only 3 individuals contribute speech). Simsamu: A corpus of 23 simulated emergency calls involving 2 (sometimes 3) participants. It is the sole corpus with original audio files sampled at 8 kHz, while all other corpora use a 16 kHz sampling rate. VoxConverse: A corpus of 232 YouTube videos. This benchmark is commonly used for evaluating speaker separation.

创建时间：

2025-03-12

原始信息汇总

数据集详情概述

数据集描述

使用的数据集包括：
- ETAPE：包含3个广播录音的语料库。
- LINAGORA：包含8个会议录音的语料库。
- SUMM-RE：包含34个大约30分钟的模拟会议，通常有4个参与者（有时只有3个在说话）。
- Simsamu：包含23个模拟紧急电话，通常有2个（有时3个）参与者。这个语料库中的原始文件采样率为8kHz（其他使用16kHz）。
- VoxConverse：包含232个YouTube视频的语料库。这个基准通常用于评估说话人分割。

当前结果

准确度

说话人分割

说话人分割错误率（DER%）：评估说话人分割系统性能的最常用指标。

公式：$$ ext{DER} = frac{( ext{speaker confusion} + ext{speaker missed} + ext{speaker false alarm})}{ ext{total speech duration}}$$
不同系统在不同数据集上的总体DER如下：

引擎	ETAPE	LINAGORA	SUMM-RE	Simsamu	VoxConverse
azure	9.51	44.44	_____	_____	_____
linto-pyannote 1.0.0 (pyannote 2.1)	15.06	30.16	43.98	15.84	16.57
linto-pyannote 1.1.0 (pyannote 3.1)	12.49	33.66	34.08	18.35	13.67
linto-simple 1.0.1 (silero v4)	19.88	30.38	37.03	30.74	21.14
linto-simple 1.1.0 (silero v3)	16.20	40.12	35.23	19.67	23.22
linto-simple 1.1.1 (silero v5)	17.82	41.50	37.00	28.85	23.78

未知说话人数量的DER：

引擎	ETAPE	LINAGORA	SUMM-RE	Simsamu	VoxConverse
azure streaming	❓ 63.44	❓ 72.50	27.78	_____	_____
azure	❓ 29.53	34.12	17.30	_____	_____
linto-pyannote 1.0.0 (pyannote 2.1)	15.06	32.24	45.57	16.75	14.23
linto-pyannote 1.1.0 (pyannote 3.1)	12.47	32.03	32.52	17.78	11.12
linto-simple 1.0.1 (silero v4)	7.50	23.62	37.21	30.88	16.29
linto-simple 1.1.0 (silero v3)	8.05	23.02	35.82	21.02	15.43
linto-simple 1.1.1 (silero v5)	8.23	23.18	37.19	28.55	14.62

说话人混淆错误率

忽略说话人假警报的DER变体。

Jaccard错误率（JER%）

与DER类似，但给每个说话人的贡献分配相同的权重，不考虑他们的说话时长。

预测与实际说话人数量的差异

展示了预测说话人数与实际说话人数之间的差异分布。

说话人识别

识别错误率

说话人分类错误率随时间的变化，类似于DER，但不需要匹配说话人标签。

性能

推断时间

展示了不同系统在不同数据集上的实时因子（RTF），取决于输入音频的时长（说话人数也可能影响RTF）。
- CPU
- GPU：基准测试在NVIDIA GeForce GTX 1080 Ti（11.3GB VRAM）上运行。

内存消耗

展示了不同系统在不同数据集上的RAM和VRAM消耗，取决于输入音频的时长（说话人数也可能影响RTF）。
- CPU
- GPU

搜集汇总

数据集介绍

构建方式

该数据集的构建基于多个子数据集，包括ETAPE、LINAGORA、SUMM-RE、Simsamu和VoxConverse。这些子数据集分别涵盖了不同场景下的音频记录，如广播录音、会议录音、模拟会议、紧急呼叫录音以及YouTube视频。构建过程中确保了各个子数据集的标注质量，提供了关于说话人分割与识别的基准测试。

使用方法

使用该数据集时，用户可以根据具体的说话人数目已知或未知情况进行相应的评估。数据集支持在不同的硬件平台上（如CPU和GPU）进行性能测试，包括推理时间（实时因子RTF）和内存消耗。用户可以根据数据集提供的详细指标和图表，分析并比较不同系统的性能表现。

背景与挑战

背景概述

ETAPE、LINAGORA、SUMM-RE、Simsamu和VoxConverse数据集是针对说话人识别和说话人分割任务构建的。这些数据集涵盖了广播、会议、模拟会议、紧急呼叫以及YouTube视频等多样化的语音场景。它们由Linto AI创建，旨在为评估说话人分割系统提供基准。创建这些数据集的目的在于解决语音识别领域中说话人识别与分割的核心问题，对于推动相关技术的发展具有重要意义。这些数据集自发布以来，已被广泛应用于学术研究和工业界，对提升说话人识别与分割技术的性能产生了显著影响。

当前挑战

这些数据集在构建和应用过程中面临的挑战包括：1) 如何准确评估说话人分割系统的性能，特别是当存在未知数量的说话人时；2) 语音识别中的噪声和不稳定性的处理，如Simsamu数据集中的Voice Activity Detection (VAD)问题；3) 在不同硬件平台上，如CPU和GPU，优化模型的推理时间和内存消耗，以满足实时应用的需求。此外，数据集的多样性和规模也在不断考验着算法的泛化能力和鲁棒性。

常用场景

经典使用场景

在语音识别与处理领域，ETAPE、LINAGORA、SUMM-RE、Simsamu和VoxConverse数据集的常见应用场景在于评估和基准测试说话人分割与识别系统的性能。这些数据集涵盖了广播、会议、模拟紧急通话以及网络视频等多样化的语音环境，使得研究者在多种情况下测试算法的有效性和鲁棒性。

解决学术问题

这些数据集解决了学术研究中如何准确评估说话人分割与识别系统性能的问题。通过提供具有精确标注的语音记录，研究者能够计算如说话人分割错误率（DER）、说话人混淆错误率、Jaccard错误率（JER%）等关键指标，从而定量分析系统的准确性、效率和可靠性。

实际应用

在实际应用中，这些数据集的应用场景广泛，包括但不限于自动会议转录、语音助手、广播内容分析以及语音监控等。它们为开发能够理解并处理多人对话的智能系统提供了基础。

数据集最近研究