CHiME-5

arXiv2025-09-30 收录

下载链接：

https://github.com/kaldi-asr/kaldi/tree/master/egs/chime5/s5

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为CHiME-5，包含了使用远端麦克风记录的实际晚宴对话，特点是多人同时说话和多种背景音效。这些现实世界的录音为语音提取方法带来了极大的挑战。该数据集的任务是目标语音提取（Target Speech Extraction，简称Tse）。

This dataset, named CHiME-5, comprises real-world dinner party conversations recorded using distant microphones. It features simultaneous multi-speaker speech and various background sound effects. These real-world recordings pose substantial challenges to speech extraction techniques. The task defined for this dataset is Target Speech Extraction, abbreviated as Tse.

搜集汇总

数据集介绍

构建方式

CHiME-5数据集专为远场多麦克风对话语音识别而设计，基于真实家庭环境中的晚餐聚会场景构建。研究团队邀请了四位彼此熟识的朋友（两位主人与两位客人）在20个真实住宅中举行自然对话的晚餐聚会，每场聚会持续至少两小时，并依次在厨房、餐厅和客厅三个区域进行。音频采集采用六台微软Kinect设备（每台配备4个同步麦克风线性阵列）进行远场录制，同时每位参与者佩戴Soundman OKM II Classic Studio双耳麦克风，通过Tascam DR-05录音机采集近场参考信号。所有语音数据均以双耳麦克风信号为基准进行人工转写，包含起止时间、词序列及非语言噪声标记，并利用互相关方法校正设备间的时钟漂移，最终形成包含16个训练集会、2个开发集和2个评估集的语料库。

特点

CHiME-5数据集的核心特点在于其高度真实性和挑战性。它首次在多个真实住宅中大规模采集了自然发生的多说话人重叠对话语音，场景涵盖厨房、餐厅和客厅等不同声学环境，背景噪声包括烹饪声、餐具碰撞声等真实家庭干扰。数据采用商用Kinect麦克风阵列与双耳麦克风同步录制，提供了远场与近场信号的对比，凸显了源-麦克风距离和混响对识别性能的显著影响。此外，数据集包含自发语音中的非语言事件标记（如咳嗽、笑声），并提供了房间布局和阵列位置信息，支持声学鲁棒性与语言建模的联合研究。基线实验显示，远场阵列的词错误率高达81.3%（LF-MMI TDNN），远高于双耳麦克风的47.9%，充分体现了该数据集对远场对话语音识别技术的严峻考验。

使用方法

CHiME-5数据集的使用遵循明确的竞赛规范，支持单阵列与多阵列两种赛道。在单阵列赛道中，参与者仅能利用参考阵列的音频进行识别；多阵列赛道则允许使用所有Kinect阵列信号。系统可借助已知的语音起止时间、说话人标签和位置标签，并允许利用整个会话的声学上下文。训练与开发阶段提供双耳麦克风信号和房间平面图，但禁止手动修改数据或注释。基线系统基于Kaldi工具包实现了加权延迟求和波束形成（BeamformIt）增强、HMM/GMM与LF-MMI TDNN声学模型，以及基于ESPnet的端到端ASR方案。参与者需在开发集上调整参数，最终以评估集上的词错误率进行排名，并提交Kaldi格式的格栅文件和技术说明，从而确保比较的公平性与可复现性。

背景与挑战

背景概述

CHiME-5数据集由英国谢菲尔德大学、美国约翰霍普金斯大学及法国洛林大学等机构的研究人员于2018年联合发布，旨在推动远场多麦克风对话语音识别技术的发展。该数据集以真实家庭环境中的晚餐聚会为场景，采用六台Kinect麦克风阵列和四组双耳麦克风对，采集了20个家庭中四名参与者的自然对话语音，总时长超过40小时。其核心研究问题聚焦于复杂声学条件下的鲁棒语音识别，涵盖多说话人重叠、背景噪声、混响及远距离拾音等挑战。CHiME-5的发布填补了真实家庭环境中多说话人、多麦克风数据集的空白，为语音分离、增强及识别技术的评估提供了标准化基准，对推动智能家居、人机交互等领域的实用化研究具有深远影响。

当前挑战

CHiME-5数据集面临的挑战主要源于其极端的声学复杂性与构建难度。首先，所解决的领域问题包括：远距离拾音导致的信噪比极低（如阵列麦克风与双耳麦克风WER差距达33.4%）、多说话人语音重叠严重、自发对话中的非语言噪声（如咳嗽、咀嚼）及厨房等场景的强背景干扰。其次，构建过程中需克服：多设备间时钟漂移与帧丢失导致的异步问题，需通过交叉相关法逐段校准；自然对话的完全人工转写成本高昂，且需处理隐私内容红action；20个家庭布局各异，麦克风阵列的部署需兼顾覆盖性与真实场景的代表性，同时避免引入版权音乐等外部干扰。这些挑战共同导致基线系统WER高达81.3%（LF-MMI TDNN），凸显了现有技术在真实家庭远场对话场景中的局限性。

常用场景

经典使用场景

CHiME-5数据集的核心应用场景聚焦于真实家庭环境中的远场多麦克风对话语音识别。该数据集通过精心设计的晚餐派对场景，采集了二十个真实家庭中四位参与者自然交谈的语音，并由六组Kinect麦克风阵列和四组双耳麦克风对同步记录。研究者常利用此数据集评估和优化在复杂声学条件下（如背景噪声、混响、语音重叠）的语音分离与识别系统，尤其关注从远距离麦克风阵列中提取清晰语音的技术挑战。

衍生相关工作

围绕CHiME-5数据集，衍生了一系列标志性研究工作。例如，基于加权延迟求和波束成形（BeamformIt）的经典增强流水线被广泛作为基准；端到端ASR模型（如ESPnet中的混合CTC/注意力架构）在该数据集上验证了其无需显式词典和FST的潜力；此外，数据清洗策略（如剔除15%不规则话语）和基于格栅自由最大互信息（LF-MMI）的TDNN训练方法显著提升了基线性能。这些工作不仅深化了对远场语音识别挑战的理解，还催生了诸如语音分离与识别联合优化、多阵列融合等前沿研究方向。

数据集最近研究