anton-l/superb

Name: anton-l/superb
Creator: anton-l
Published: 2022-07-04 10:48:08
License: 暂无描述

Hugging Face2022-07-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/anton-l/superb

下载链接

链接失效反馈

官方服务：

资源简介：

SUPERB是一个用于评估共享模型在多种语音处理任务上性能的基准测试平台。它支持的任务包括语音识别、音素识别、关键词检测、说话人识别等。数据集主要使用英语，数据来源于多个公开的语音数据集，如LibriSpeech、Speech Commands等。SUPERB的目标是通过最小的架构变化和标记数据，评估模型在广泛语音处理任务上的性能。

SUPERB is a benchmark platform for evaluating the performance of shared models across a wide range of speech processing tasks. It supports tasks including speech recognition, phoneme recognition, keyword detection, speaker recognition, and more. The datasets are primarily in English and are sourced from multiple publicly available speech datasets such as LibriSpeech and Speech Commands. The core objective of SUPERB is to assess model performance across a broad spectrum of speech processing tasks with minimal architectural modifications and labeled data.

提供机构：

anton-l

原始信息汇总

数据集概述

数据集基本信息

名称: SUPERB
语言: 英语 (BCP-47 en)
许可证: 未知
多语言性: 单语
数据集大小: 未知
数据来源: 原始数据集，扩展自 librispeech_asr, other-librimix, other-speech_commands
任务类别: 语音处理

支持的任务和评估指标

任务列表

自动语音识别 (ASR)
- 评估指标: 字错误率 (WER)
- 数据集: LibriSpeech train-clean-100/dev-clean/test-clean
音素识别 (PR)
- 评估指标: 音素错误率 (PER)
- 数据集: LibriSpeech train-clean-100/dev-clean/test-clean
关键词检测 (KS)
- 评估指标: 准确率 (ACC)
- 数据集: Speech Commands dataset v1.0
查询示例口语术语检测 (QbE)
- 评估指标: 最大术语加权值 (MTWV)
- 数据集: QUESST 2014 challenge English subset
意图分类 (IC)
- 评估指标: 准确率 (ACC)
- 数据集: Fluent Speech Commands dataset
槽填充 (SF)
- 评估指标: 槽类型F1分数和槽值CER
- 数据集: Audio SNIPS
说话人识别 (SI)
- 评估指标: 准确率 (ACC)
- 数据集: VoxCeleb1 dataset
自动说话人验证 (ASV)
- 评估指标: 等错误率 (EER)
- 数据集: VoxCeleb1 dataset
说话人分割 (SD)
- 评估指标: 分割错误率 (DER)
- 数据集: LibriMix
情感识别 (ER)
- 评估指标: 准确率 (ACC)
- 数据集: IEMOCAP

数据集结构

数据实例

ASR

示例: python { chapter_id: 1240, file: path/to/file.flac, audio: {path: path/to/file.flac, array: ..., sampling_rate: 16000}, id: 103-1240-0000, speaker_id: 103, text: CHAPTER ONE MISSUS RACHEL LYNDE IS SURPRISED... }

KS

示例: python { file: /path/yes/af7a8296_nohash_1.wav, audio: {path: /path/yes/af7a8296_nohash_1.wav, array: ..., sampling_rate: 16000}, label: 0 # yes }

IC

示例: python { file: "/path/wavs/speakers/2BqVo8kVB2Skwgyb/063aa8f0-4479-11e9-a9a5-5dbec3b8816a.wav", audio: {path: /path/wavs/speakers/2BqVo8kVB2Skwgyb/063aa8f0-4479-11e9-a9a5-5dbec3b8816a.wav, array: ..., sampling_rate: 16000}, speaker_id: 2BqVo8kVB2Skwgyb, text: Turn the bedroom lights off, action: 3, # deactivate object: 7, # lights location: 0 # bedroom }

SI

示例: python { file: /path/wav/id10003/na8-QEFmj44/00003.wav, audio: {path: /path/wav/id10003/na8-QEFmj44/00003.wav, array: ..., sampling_rate: 16000}, label: 2 # id10003 }

SD

示例: python { record_id: 1578-6379-0038_6415-111615-0009, file: path/to/file.wav, audio: {path: path/to/file.wav, array: ..., sampling_rate: 16000}, start: 0, end: 1590, speakers: [ {speaker_id: 1578, start: 28, end: 657}, {speaker_id: 6415, start: 28, end: 1576} ] }

数据字段

ASR

file: 音频文件路径
audio: 包含音频文件路径、解码音频数组和采样率的字典
text: 音频文件的转录文本
speaker_id: 说话人唯一ID
chapter_id: 有声书章节ID
id: 数据样本唯一ID

KS

file: 音频文件路径
audio: 包含音频文件路径、解码音频数组和采样率的字典
label: 语音命令的标签

IC

file: 音频文件路径
audio: 包含音频文件路径、解码音频数组和采样率的字典
speaker_id: 说话人ID
text: 语音命令的转录文本
action: 命令动作的标签
object: 命令对象的标签
location: 命令位置的标签

SI

file: 音频文件路径
audio: 包含音频文件路径、解码音频数组和采样率的字典
label: 说话人标签

SD

record_id: 记录ID
file: 音频文件路径
audio: 包含音频文件路径、解码音频数组和采样率的字典
start: 音频开始帧
end: 音频结束帧
speakers: 说话人列表，每个说话人包含ID、开始和结束帧

数据分割

ASR

	train	validation	test
asr	28539	2703	2620

KS

	train	validation	test
ks	51094	6798	3081

IC

	train	validation	test
ic	23132	3118	3793

SI

	train	validation	test
si	138361	6904	8251

SD

	train	dev	test
sd	13901	3014	3002

ER

	session1	session2	session3	session4	session5
er	1085	1023	1151	1031	1241

搜集汇总

数据集介绍

构建方式

在语音处理领域，SUPERB数据集通过整合多个经典语音数据集构建而成，旨在为统一模型提供全面的性能评估基准。其构建过程涉及从LibriSpeech、Speech Commands、VoxCeleb等现有数据集中精选子集，并依据各任务需求进行标准化处理。例如，音素识别任务采用LibriSpeech的干净子集，并通过Kaldi工具链生成音素标注；关键词检测则基于Speech Commands数据集，保留了原始音频文件与分类标签。数据集的构建注重任务多样性，涵盖了从语音识别到情感识别的十项核心任务，每项任务均遵循严格的训练、验证与测试划分，确保了评估的科学性与可重复性。

使用方法

使用SUPERB数据集时，研究者可通过HuggingFace平台直接加载各任务对应的数据子集，并利用提供的辅助函数进行音频处理与标注生成。例如，对于关键词检测任务，可使用map_to_array函数加载音频文件，并通过sample_noise函数对静音片段进行随机采样；对于说话人日志任务，则需结合load_audio_file与generate_label函数，将时间戳信息转换为帧级的多说话人标签。数据集的评估严格遵循各任务的既定指标，如音素错误率、词错误率、准确率等，确保结果的可比性。研究者可将统一模型应用于不同任务，仅需微调任务特定层，即可在官方排行榜上提交结果，参与系统性性能比较。这种使用方式促进了模型泛化能力的探索，为语音处理领域的进展提供了标准化实验环境。

背景与挑战

背景概述

SUPERB（Speech processing Universal PERformance Benchmark）作为语音处理领域的综合性评测基准，由Shu-Wen Yang等研究人员于2021年提出，其核心研究问题在于评估单一共享模型在多种语音任务上的泛化能力。该基准整合了包括自动语音识别、说话人识别、情感识别等在内的十项关键任务，旨在推动自监督学习在语音表征中的深入应用。通过统一框架下的性能比较，SUPERB显著促进了语音表征学习领域的发展，为模型架构的优化与跨任务迁移提供了科学依据。

当前挑战

SUPERB所应对的领域挑战在于如何设计一个能够全面评估语音表征模型泛化能力的统一基准，这要求模型在有限架构调整与标注数据下，同时应对语音内容理解、说话人特征提取及情感语义解析等多维度任务。在构建过程中，挑战主要集中于多源数据集的整合与标准化，例如需协调LibriSpeech、VoxCeleb等异构数据在格式、采样率及标注规范上的一致性；同时，确保各项任务评估指标（如错误率、准确率）的公平性与可比性亦需精细设计，以维持评测体系的严谨与客观。

常用场景

经典使用场景

在语音处理领域，SUPERB数据集作为通用性能基准，其经典使用场景在于评估单一共享模型在多样化任务上的泛化能力。研究者通过该数据集，能够系统性地考察模型在语音识别、说话人识别、情感识别等十项核心任务上的表现，从而揭示模型底层表征的普适性与鲁棒性。这种跨任务的统一评测框架，为语音表示学习研究提供了标准化的比较平台，推动了自监督学习与多任务学习在语音领域的深度融合。

解决学术问题

SUPERB数据集有效解决了语音表示学习领域长期存在的评估碎片化问题。传统研究往往针对单一任务设计专用模型，难以衡量表征本身的通用性。该数据集通过整合多项任务并设立统一评测协议，使研究者能够系统探究预训练语音表征在跨任务迁移中的有效性。其意义在于建立了语音领域的通用评估范式，促进了自监督学习、多模态融合等前沿方向的发展，为构建通用语音智能系统奠定了理论基础。

实际应用

在实际应用层面，SUPERB数据集支撑的模型评估体系已渗透至智能语音交互系统的各个环节。基于其评测的语音识别技术赋能智能助理的实时转写，说话人验证模块保障金融声纹认证的安全，情感识别模型优化客服系统的交互体验。同时，关键词检测与意图分类任务的研究成果，直接应用于物联网设备的低功耗语音唤醒与指令理解。这些技术通过数据集的标准化评测不断迭代，推动着消费电子、安防监控、医疗辅助等领域的智能化升级。

数据集最近研究