NOTSOFAR-1

arXiv2024-01-17 更新2024-07-29 收录

下载链接：

https://github.com/microsoft/NOTSOFAR1-Challenge

下载链接

链接失效反馈

官方服务：

资源简介：

NOTSOFAR-1数据集由微软创建，旨在推动远场会议场景中的自动语音识别和说话人日志技术的发展。该数据集包含约315次真实会议记录，每次会议平均6分钟，涵盖广泛的真实世界声学条件和对话动态。此外，还提供了一个1000小时的模拟训练数据集，用于语音分离和增强，该数据集利用了15,000个真实的声学传递函数，以提高模拟的真实性。数据集的创建过程注重细节，包括使用多通道和单通道设备记录，以及详细的元数据注释，以支持深入分析。该数据集主要应用于远场语音识别和说话人日志领域，旨在解决复杂声学环境下的语音处理问题。

The NOTSOFAR-1 dataset was developed by Microsoft to advance automatic speech recognition (ASR) and speaker diarization technologies for far-field meeting scenarios. This collection includes approximately 315 real-world meeting recordings, each averaging 6 minutes in length, and covers a broad spectrum of real-world acoustic conditions and conversational dynamics. Additionally, a 1000-hour simulated training dataset for speech separation and enhancement is provided, which leverages 15,000 real acoustic transfer functions to improve the authenticity of the simulated environment. Great attention to detail was given during the dataset's construction, including recordings made with both multi-channel and single-channel devices, as well as comprehensive metadata annotations to facilitate in-depth analysis. This dataset is primarily targeted at far-field speech recognition and speaker diarization applications, with the goal of addressing speech processing challenges in complex acoustic environments.

提供机构：

微软

创建时间：

2024-01-17

原始信息汇总

数据集概述

数据集介绍

欢迎参加“NOTSOFAR-1: 单设备远程会议转录”挑战赛。本数据集包含用于NOTSOFAR-1挑战赛的基准系统代码。

基准结果

基准结果在NOTSOFAR dev-set-1上的表现如下，以tcpWER / tcORC-WER (会话数)格式呈现：

	单通道	多通道
所有会话	46.8 / 38.5 (177)	32.4 / 26.7 (106)
#自然会议	47.6 / 40.2 (30)	32.3 / 26.2 (18)
#辩论重叠	54.9 / 44.7 (39)	38.0 / 31.4 (24)
#无重叠轮次	32.4 / 29.7 (10)	21.2 / 18.8 (6)
#高瞬态噪声	51.0 / 43.7 (10)	33.6 / 29.1 (5)
#靠近白板谈话	55.4 / 43.9 (40)	39.9 / 31.2 (22)

数据集下载

NOTSOFAR-1挑战赛提供两个数据集：一个记录的会议数据集和一个模拟训练数据集。

会议数据集

NOTSOFAR-1记录的会议数据集是一个包含315个会议的集合，每个会议平均6分钟，记录在30个会议室中，有4-8名与会者，共有35名独特的演讲者。该数据集捕捉了现实世界声学条件和对话动态的广泛范围。

下载

可以使用utils/azure_storage.py中的download_meeting_subset函数下载数据集。

模拟训练数据集

NOTSOFAR-1训练数据集是一个1000小时的模拟训练数据集，通过增强真实性合成，以实现现实世界的泛化，包含15,000个真实的声学传递函数。

下载

可以使用utils/azure_storage.py中的download_simulated_subset函数下载数据集。

数据许可

该公共数据目前仅在NOTSOFAR挑战赛活动中许可使用。我们正在积极努力扩大其可用性，以便学术或商业用途。我们预计将很快发布公告，以实现更广泛和更有影响力的数据使用。请继续关注更新。

搜集汇总

数据集介绍

构建方式

NOTSOFAR-1数据集的构建旨在解决远场会议场景下的语音识别问题。该数据集包含了315次会议的真实录音，平均每次会议时长为6分钟，涵盖了广泛的现实世界声学条件和对话动态。录音在30个会议室进行，每个会议室有4到8名参与者，共有35位不同的演讲者。此外，数据集还包括一个1000小时的模拟训练数据集，该数据集通过增强的真实性合成，以适应现实世界的泛化，并包含了15,000个真实的声学传递函数。这些数据集的构建旨在促进远场对话语音识别领域的研究，并为数据驱动方法提供关键资源。

特点

NOTSOFAR-1数据集的特点在于其真实性和多样性。数据集包含了广泛的现实世界声学条件和对话动态，涵盖了不同距离、音量、干扰和噪声水平的演讲者。此外，数据集还包含了详细的元数据，记录了每个会议中的声学事件和对话方面，如额外重叠的存在。数据集还使用了单通道和多通道设备进行录音，反映了典型商业录音设备的范围。此外，数据集的构建还注重会议的数量而非时长，以确保数据集的多样性和独立性。最后，数据集的转录过程是基于近距离录音进行的，以避免机器辅助转录可能引入的偏差。

使用方法

NOTSOFAR-1数据集的使用方法包括将其用于语音分离和增强的训练，以及作为远场对话语音识别的基准测试数据集。数据集提供了分离的语音和噪声成分作为监督信号，以训练数据驱动的语音分离和增强方法。此外，数据集还提供了详细的元数据，可用于深入分析算法的性能和潜在改进。数据集的构建还考虑了实际应用场景，使用了多种商业录音设备进行录音，以确保数据集的实用性。最后，数据集还提供了一个开源的基线系统，以帮助参与者快速入门并开始研究。

背景与挑战

背景概述

在远场会议场景中，由于说话者与麦克风之间的距离，以及不断变化的说话者和环境条件，带来了显著的声学复杂性。这些复杂性包括混响、说话者距离和音量的变化、背景噪音等。随着大型语言模型（LLMs）的兴起，会话语音识别在会议场景中具有前所未有的实际重要性。LLMs通过语音识别引擎的输入，正在重新定义用户体验，包括会议摘要、笔记记录、情绪分析和针对用户查询的个性化上下文感知响应等功能。NOTSOFAR-1挑战赛是第一个针对远场音频记录的自然办公室说话者的挑战，重点关注远场会议场景中的远场说话者语音分割和自动语音识别（DASR）。该挑战赛作为两个新数据集的启动平台，旨在推动远场会议语音识别领域的研究进展，为数据驱动方法提供关键资源，这些方法目前受限于缺乏全面的、高质量的训练和基准测试数据集。

当前挑战

NOTSOFAR-1挑战赛面临的挑战包括：1)解决远场会议场景中的声学复杂性，包括混响、说话者距离和音量的变化、背景噪音等；2)构建高质量的训练和基准测试数据集，以推动数据驱动方法的发展；3)解决实际会议场景中的动态声学转移函数（ATFs）的变化问题；4)开发能够有效处理单设备DASR的系统，以适应实际会议场景中的常见设置。

常用场景

经典使用场景

NOTSOFAR-1数据集主要用于远场会议场景下的语音识别和说话人分割。该数据集包含真实的会议录音和模拟的训练数据，旨在帮助研究人员开发能够在远场环境中准确识别说话人和语音的算法。数据集的设计考虑了会议场景中常见的声学复杂性和动态变化，为研究提供了宝贵资源。

衍生相关工作

NOTSOFAR-1数据集的发布促进了远场语音识别和说话人分割领域的研究。基于该数据集的研究成果已经应用于开发更加准确和鲁棒的语音识别和说话人分割算法，并推动了该领域的进一步发展。此外，NOTSOFAR-1数据集还为开发智能会议系统和语音交互界面提供了重要的数据支持。

数据集最近研究