AliMeeting

arXiv2023-10-05 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2309.13573v2

下载链接

链接失效反馈

资源简介：

AliMeeting数据集是由阿里巴巴达摩院语音实验室创建，专门用于多说话人会议场景下的语音识别研究。该数据集包含总计118.75小时的语音数据，涉及481个说话人，数据分为训练、评估和测试三个部分。AliMeeting数据集的特点是同时记录了远场重叠音频和相应的近场音频，确保单个说话人的语音被单独记录和转录。该数据集主要用于解决会议场景中“谁在何时说了什么”的问题，适用于开发和评估说话人归属的自动语音识别（SA-ASR）系统。

The AliMeeting dataset was developed by the Speech Lab of Alibaba DAMO Academy, and is exclusively designed for speech recognition research in multi-speaker meeting scenarios. It contains a total of 118.75 hours of speech data involving 481 speakers, and the dataset is divided into three subsets: training, evaluation, and test sets. A distinctive feature of the AliMeeting dataset is that it simultaneously records far-field overlapping audio and corresponding near-field audio, ensuring that the speech of individual speakers is separately recorded and transcribed. This dataset is primarily used to address the problem of "who spoke what and when" in meeting scenarios, and is applicable to the development and evaluation of speaker-attributed automatic speech recognition (SA-ASR) systems.

提供机构：

西北工业大学音频、语音和语言处理组(ASLP@NPU)

创建时间：

2023-09-24

AI搜集汇总

数据集介绍

构建方式

数据集构建方式的描述

特点

数据集特点描述

使用方法

数据集使用方法描述

背景与挑战

背景概述

随着人工智能和自然语言处理技术的发展，会议转录技术的精确度仍面临重大挑战，包括但不限于语音重叠、未知数量的说话人、远场衰减的语音信号、噪声、混响等因素，这些因素都可能降低转录性能。为了应对这些挑战，ICASSP2022年举办了多通道多方会议转录（M2MeT）挑战赛，该挑战赛在发展普通话会议转录技术方面发挥了重要作用，特别是解决了实际会议中语音重叠的挑战。M2MeT挑战赛包括两个不同的任务：说话人分割和多说话人自动语音识别（ASR）。说话人分割涉及识别会议中谁在何时发言，而多说话人ASR旨在转录多个说话人的语音。在第二次M2MeT挑战赛（M2MeT 2.0）中，这两个任务被合并为一个单一的说话人属性任务。M2MeT 2.0挑战赛与第一次M2MeT的主要区别在于，第一次M2MeT的评估指标是说话人无关的，这意味着可以确定转录，但无法识别相应的说话人。为了克服这一局限性并推进当前的多说话人ASR系统，M2MeT 2.0挑战赛引入了说话人属性ASR（SA-ASR）任务。该任务不仅转录语音，还为每个转录分配说话人标签。为了评估提交系统的性能，我们引入了连接最小排列字符错误率（cpCER）指标。cpCER是为普通话特别提出的，其定义类似于连接最小排列词错误率（cpWER）。与计算多源环境中的听觉（CHIME）、基于多模态信息的声音处理（MISP）等其他相关挑战赛不同，M2MeT 2.0挑战赛允许参与者自由使用任何开源预训练模型，这在其他挑战赛中通常是禁止的。这种灵活性旨在探索学术研究中提出的各种开源预训练模型在SA-ASR任务中的可行工业应用。

当前挑战

M2MeT 2.0挑战赛面临的挑战包括解决实际会议场景中语音重叠的问题，以及准确地识别和转录多个说话人的语音。此外，构建过程中还遇到了如何有效地使用开源预训练模型来提高说话人属性ASR性能的挑战。为了应对这些挑战，挑战赛设置了两个子赛道：固定训练条件赛道和开放训练条件赛道。固定训练条件赛道旨在通过提供固定的一组训练数据、开源预训练模型和评估标准来促进该领域的可重复研究。开放训练条件赛道旨在通过允许参与者使用自己的数据和训练技术来评估说话人属性ASR的当前最先进性能。此外，为了提供一个清晰的cpCER计算描述，我们还展示了算法1。为了运行该算法，需要提供给定会话的地面真实和假设转录，这些转录按时间顺序排列。在Y和H的长度不相等的情况下，我们使用空白转录进行填充，以确保两个集合具有相同的长度。

常用场景

经典使用场景

在多通道多人会议场景中，AliMeeting数据集主要用于解决语音识别和说话人分割的挑战。该数据集包含了远场和近场的多说话人语音数据，为研究者提供了丰富的实验资源，帮助他们开发出能够准确识别和分割多说话人语音的技术。在会议转录任务中，该数据集可以帮助研究人员训练和评估自动语音识别系统，使其能够准确地识别每个说话人的话语，并为他们分配相应的标签。

衍生相关工作

AliMeeting数据集的发布，推动了多说话人语音识别和分割技术的发展。基于该数据集的研究成果，研究人员开发出了多种能够准确识别和分割多说话人语音的技术，如基于深度学习的说话人分割技术和基于声学模型的语音识别技术。此外，该数据集还促进了多说话人语音识别和分割技术在会议转录、智能助手等领域的应用。

数据集最近研究