five

NOTSOFAR-1|语音识别数据集|说话人日志数据集

收藏
arXiv2024-01-17 更新2024-07-29 收录
语音识别
说话人日志
下载链接:
https://github.com/microsoft/NOTSOFAR1-Challenge
下载链接
链接失效反馈
资源简介:
NOTSOFAR-1数据集由微软创建,旨在推动远场会议场景中的自动语音识别和说话人日志技术的发展。该数据集包含约315次真实会议记录,每次会议平均6分钟,涵盖广泛的真实世界声学条件和对话动态。此外,还提供了一个1000小时的模拟训练数据集,用于语音分离和增强,该数据集利用了15,000个真实的声学传递函数,以提高模拟的真实性。数据集的创建过程注重细节,包括使用多通道和单通道设备记录,以及详细的元数据注释,以支持深入分析。该数据集主要应用于远场语音识别和说话人日志领域,旨在解决复杂声学环境下的语音处理问题。
提供机构:
微软
创建时间:
2024-01-17
原始信息汇总

数据集概述

数据集介绍

欢迎参加“NOTSOFAR-1: 单设备远程会议转录”挑战赛。本数据集包含用于NOTSOFAR-1挑战赛的基准系统代码。

基准结果

基准结果在NOTSOFAR dev-set-1上的表现如下,以tcpWER / tcORC-WER (会话数)格式呈现:

单通道 多通道
所有会话 46.8 / 38.5 (177) 32.4 / 26.7 (106)
#自然会议 47.6 / 40.2 (30) 32.3 / 26.2 (18)
#辩论重叠 54.9 / 44.7 (39) 38.0 / 31.4 (24)
#无重叠轮次 32.4 / 29.7 (10) 21.2 / 18.8 (6)
#高瞬态噪声 51.0 / 43.7 (10) 33.6 / 29.1 (5)
#靠近白板谈话 55.4 / 43.9 (40) 39.9 / 31.2 (22)

数据集下载

NOTSOFAR-1挑战赛提供两个数据集:一个记录的会议数据集和一个模拟训练数据集。

会议数据集

NOTSOFAR-1记录的会议数据集是一个包含315个会议的集合,每个会议平均6分钟,记录在30个会议室中,有4-8名与会者,共有35名独特的演讲者。该数据集捕捉了现实世界声学条件和对话动态的广泛范围。

下载

可以使用utils/azure_storage.py中的download_meeting_subset函数下载数据集。

模拟训练数据集

NOTSOFAR-1训练数据集是一个1000小时的模拟训练数据集,通过增强真实性合成,以实现现实世界的泛化,包含15,000个真实的声学传递函数。

下载

可以使用utils/azure_storage.py中的download_simulated_subset函数下载数据集。

数据许可

该公共数据目前仅在NOTSOFAR挑战赛活动中许可使用。我们正在积极努力扩大其可用性,以便学术或商业用途。我们预计将很快发布公告,以实现更广泛和更有影响力的数据使用。请继续关注更新。

AI搜集汇总
数据集介绍
main_image_url
构建方式
NOTSOFAR-1数据集的构建旨在解决远场会议场景下的语音识别问题。该数据集包含了315次会议的真实录音,平均每次会议时长为6分钟,涵盖了广泛的现实世界声学条件和对话动态。录音在30个会议室进行,每个会议室有4到8名参与者,共有35位不同的演讲者。此外,数据集还包括一个1000小时的模拟训练数据集,该数据集通过增强的真实性合成,以适应现实世界的泛化,并包含了15,000个真实的声学传递函数。这些数据集的构建旨在促进远场对话语音识别领域的研究,并为数据驱动方法提供关键资源。
特点
NOTSOFAR-1数据集的特点在于其真实性和多样性。数据集包含了广泛的现实世界声学条件和对话动态,涵盖了不同距离、音量、干扰和噪声水平的演讲者。此外,数据集还包含了详细的元数据,记录了每个会议中的声学事件和对话方面,如额外重叠的存在。数据集还使用了单通道和多通道设备进行录音,反映了典型商业录音设备的范围。此外,数据集的构建还注重会议的数量而非时长,以确保数据集的多样性和独立性。最后,数据集的转录过程是基于近距离录音进行的,以避免机器辅助转录可能引入的偏差。
使用方法
NOTSOFAR-1数据集的使用方法包括将其用于语音分离和增强的训练,以及作为远场对话语音识别的基准测试数据集。数据集提供了分离的语音和噪声成分作为监督信号,以训练数据驱动的语音分离和增强方法。此外,数据集还提供了详细的元数据,可用于深入分析算法的性能和潜在改进。数据集的构建还考虑了实际应用场景,使用了多种商业录音设备进行录音,以确保数据集的实用性。最后,数据集还提供了一个开源的基线系统,以帮助参与者快速入门并开始研究。
背景与挑战
背景概述
在远场会议场景中,由于说话者与麦克风之间的距离,以及不断变化的说话者和环境条件,带来了显著的声学复杂性。这些复杂性包括混响、说话者距离和音量的变化、背景噪音等。随着大型语言模型(LLMs)的兴起,会话语音识别在会议场景中具有前所未有的实际重要性。LLMs通过语音识别引擎的输入,正在重新定义用户体验,包括会议摘要、笔记记录、情绪分析和针对用户查询的个性化上下文感知响应等功能。NOTSOFAR-1挑战赛是第一个针对远场音频记录的自然办公室说话者的挑战,重点关注远场会议场景中的远场说话者语音分割和自动语音识别(DASR)。该挑战赛作为两个新数据集的启动平台,旨在推动远场会议语音识别领域的研究进展,为数据驱动方法提供关键资源,这些方法目前受限于缺乏全面的、高质量的训练和基准测试数据集。
当前挑战
NOTSOFAR-1挑战赛面临的挑战包括:1)解决远场会议场景中的声学复杂性,包括混响、说话者距离和音量的变化、背景噪音等;2)构建高质量的训练和基准测试数据集,以推动数据驱动方法的发展;3)解决实际会议场景中的动态声学转移函数(ATFs)的变化问题;4)开发能够有效处理单设备DASR的系统,以适应实际会议场景中的常见设置。
常用场景
经典使用场景
NOTSOFAR-1数据集主要用于远场会议场景下的语音识别和说话人分割。该数据集包含真实的会议录音和模拟的训练数据,旨在帮助研究人员开发能够在远场环境中准确识别说话人和语音的算法。数据集的设计考虑了会议场景中常见的声学复杂性和动态变化,为研究提供了宝贵资源。
衍生相关工作
NOTSOFAR-1数据集的发布促进了远场语音识别和说话人分割领域的研究。基于该数据集的研究成果已经应用于开发更加准确和鲁棒的语音识别和说话人分割算法,并推动了该领域的进一步发展。此外,NOTSOFAR-1数据集还为开发智能会议系统和语音交互界面提供了重要的数据支持。
数据集最近研究
最新研究方向
在远场会议场景下,NOTSOFAR-1 Challenge 数据集的引入为远场语音识别领域带来了新的研究方向。该挑战聚焦于远场语音识别和说话人分离(DASR)任务,特别是在单通道和已知几何多通道音频记录中。数据集包含了315个会议记录,平均每个会议6分钟,覆盖了广泛的现实世界声学条件和对话动态。此外,还提供了一个1000小时的模拟训练数据集,具有增强的真实性,以促进数据驱动方法在实际世界中的泛化。该挑战旨在推动远场对话语音识别领域的研究进展,提供关键资源以释放数据驱动方法的潜力,并填补当前高质量训练和基准数据集的缺失。
相关研究论文
  • 1
    NOTSOFAR-1 Challenge: New Datasets, Baseline, and Tasks for Distant Meeting Transcription微软 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

yahoo-finance-data

该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。

huggingface 收录

密云区2022年常住人口情况

该数据是密云区提供的密云区2022年常住人口情况信息,包括1个文本。

北京市公共数据开放平台 收录

惠州市惠阳区年末常住人口信息

惠州市惠阳区年末常住人口,该数据包含了2021年-2022年惠州市惠阳区年末常住人口的数据,应用于惠州市惠阳区人口分析服务场景,经由统计机构统计汇总而成的数据。

开放广东 收录

Differential introgression in a mosaic hybrid zone reveals candidate barrier genes

Hybrid zones act as genomic sieves; although globally advantageous alleles will spread throughout the zone and neutral alleles can be freely exchanged between species, introgression will be restricted for genes that contribute to reproductive barriers or local adaptation. Seminal fluid proteins (SFPs) are known to contribute to reproductive barriers in insects and have been proposed as candidate barrier genes in the hybridizing field crickets G. pennsylvanicus and G. firmus. Here, we have used 125 SNPs to characterize patterns of differential introgression and to identify genes that may contribute to prezygotic barriers between these species. Using a transcriptome scan of the male cricket accessory gland (the site of SFP synthesis), we identified genes with major allele frequency differences between the species. We then compared patterns of introgression for genes encoding seminal fluid proteins with patterns for genes expressed in the same tissue that do not encode SFPs. We find no evi...

DataONE 收录

Multi-Text CIR (MTCIR)

MTCIR是一个大规模的合成数据集,包含340万图像对和1770万修改文本。该数据集由亚马逊公司收集,旨在解决组合图像检索领域数据不足的问题,通过多模态大型语言模型生成图像对的修改文本,并提供了多个简短的修改文本,以覆盖各种属性,更好地反映人类查询构建方式,为CIR模型提供更真实、全面的训练基础。

arXiv 收录