distil-whisper/ami-sdm

Name: distil-whisper/ami-sdm
Creator: distil-whisper
Published: 2023-09-25 10:30:13
License: 暂无描述

Hugging Face2023-09-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/distil-whisper/ami-sdm

下载链接

链接失效反馈

官方服务：

资源简介：

这是AMI SDM数据集的一个变体，增加了Whisper模型的伪标签转录。伪标签转录是通过使用Whisper large-v2模型对输入音频数据进行贪婪采样生成的。数据集的使用方法包括安装最新版本的🤗 Datasets包，通过`load_dataset`函数下载和预处理数据集，或者使用流式模式直接从Hub加载数据集。此外，还提供了如何使用该数据集进行Distil Whisper训练的指导。数据集采用cc-by-4.0许可证。

提供机构：

distil-whisper

原始信息汇总

Distil Whisper: AMI SDM 数据集概述

数据集基本信息

许可证: cc-by-4.0
任务类别: 自动语音识别
语言: 英语
数据集名称: AMI SDM

数据集描述

数据集变体: 此数据集是AMI SDM的变体，增加了伪标签的Whisper转录文本，这些转录文本是通过使用Whisper large-v2 模型对输入音频数据进行贪婪采样生成的。

使用方法

安装: 需要安装最新版本的🤗 Datasets包。
加载: 数据集可通过load_dataset函数加载，支持常规加载和流式加载两种方式。

许可证

版权信息: 本数据集遵循cc-by-4.0许可证。

搜集汇总

数据集介绍

构建方式

在语音识别研究领域，高质量标注数据对于模型训练至关重要。distil-whisper/ami-sdm数据集基于经典的AMI会议录音语料库构建，通过集成Whisper large-v2模型对原始音频进行伪标注处理。具体而言，构建过程采用贪婪解码策略，对单通道远场麦克风录制的会议对话音频生成转录文本，从而在保留原始数据集结构的基础上，增添了机器生成的参考转录，为语音识别模型的蒸馏与微调提供了丰富的监督信号。

特点

该数据集的核心特点在于其双重标注体系，既包含原始的人工转写内容，又融入了先进大模型生成的伪标签。这些伪标签由Whisper large-v2模型产生，具备较高的准确性与一致性，尤其适用于知识蒸馏等训练范式。数据集专注于英语会议场景，涵盖了真实环境下的远场语音、多人对话及背景噪声，从而模拟了实际应用中的复杂声学条件，为模型鲁棒性研究提供了贴近现实的测试平台。

使用方法

使用者可通过Hugging Face Datasets库便捷加载该数据集，支持完整下载与流式读取两种模式。安装必要依赖后，调用load_dataset函数并指定数据集名称与配置即可获取训练、验证等分割。对于大规模训练任务，推荐启用流式读取以节省本地存储空间。此外，该数据集专为配合Distil Whisper训练流程设计，用户可参照官方仓库指引，直接利用其伪标签进行语音识别模型的蒸馏训练，以提升小模型在会议场景下的识别性能。

背景与挑战

背景概述

在自动语音识别领域，高质量标注数据集对于模型训练至关重要。AMI SDM数据集作为会议场景语音识别的基准数据集，由爱丁堡大学等研究机构于2000年代初期构建，旨在解决多说话人、远场麦克风录音环境下的语音转文本问题。该数据集通过捕捉真实会议中的语音互动，推动了对话系统、语音识别模型在复杂声学环境下的性能提升，对学术研究和工业应用产生了深远影响。

当前挑战

AMI SDM数据集所针对的会议语音识别任务面临多重挑战：远场录音导致的语音信号衰减、背景噪声干扰、多说话人重叠对话以及领域特定术语的准确转录。在数据集构建过程中，原始音频的标注需克服语音分割的模糊性、说话人身份辨别的复杂性，以及人工转录的高成本与一致性维护难题。此外，生成伪标签版本时，依赖Whisper模型进行自动标注可能引入模型偏见与错误传播的风险，对数据质量与后续模型蒸馏效果构成潜在制约。

常用场景

经典使用场景

在自动语音识别领域，AMI SDM数据集以其丰富的会议对话录音和人工标注转录，成为评估和优化语音识别模型性能的基准资源。该数据集特别适用于处理多说话人、自然口语环境下的语音识别任务，研究者常利用其模拟真实会议场景，测试模型在嘈杂背景、重叠语音和口语化表达中的鲁棒性。通过结合Whisper模型生成的伪标签，该数据集进一步扩展了其在半监督学习框架下的应用潜力，为模型训练提供了高质量的增强数据。

解决学术问题

AMI SDM数据集有效应对了自动语音识别研究中多说话人交互场景下的技术挑战，如语音重叠分割、口语化语言建模和噪声鲁棒性处理。其提供的精细人工标注与Whisper伪标签相结合，助力研究者探索低资源环境下的模型蒸馏与迁移学习策略，推动了高效轻量级语音识别模型的发展。该数据集的意义在于为学术社区提供了一个标准化的评估平台，促进了语音处理技术在复杂对话环境中的理论突破与算法创新。

衍生相关工作

围绕AMI SDM数据集，衍生了一系列经典研究工作，包括基于Whisper模型的蒸馏框架Distil-Whisper，该工作通过伪标签技术实现了大规模语音识别模型的高效压缩。同时，许多研究利用该数据集探索了多模态会议分析、说话人分离算法和端到端语音识别系统的优化。这些工作不仅深化了对会议场景语音处理的理解，还催生了如会议摘要生成、情感分析等跨任务应用，持续推动着对话式人工智能技术的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集