AISHELL-5

Name: AISHELL-5
Creator: 共建：西北工业大学、理想汽车有限公司；版权：北京希尔贝壳科技有限公司
Published: 2025-05-29 11:22:59
License: 暂无描述

arXiv2025-05-29 更新2025-05-31 收录

下载链接：

https://www.aishelltech.com/AISHELL_5

下载链接

链接失效反馈

官方服务：

资源简介：

AISHELL-5是一个开源的汽车多通道多说话人语音数据集，由西北工业大学计算机科学与技术学院、北京爱数智能科技有限公司和理想汽车有限公司联合创建。该数据集包括超过100小时的在真实驾驶场景中记录的多通道语音数据，以及40小时的现实世界环境噪声记录。数据集旨在支持自动语音识别和说话人分割研究，特别是针对复杂的驾驶环境。数据集共包含超过100小时的语音数据，分为94小时的训练数据、3.3小时的验证数据和两个测试集，每个测试集分别为3.3小时和3.58小时。数据集还包括一个40小时的大型噪声数据集，用于促进车内语音数据模拟研究。

AISHELL-5 is an open-source automotive multi-channel multi-speaker speech dataset jointly created by the School of Computer Science and Technology of Northwestern Polytechnical University, Beijing AISHU Intelligent Technology Co., Ltd., and Li Auto Inc. This dataset contains over 100 hours of multi-channel speech data recorded in real driving scenarios, as well as 40 hours of real-world environmental noise recordings. It aims to support research on automatic speech recognition (ASR) and speaker diarization, particularly for complex driving environments. The dataset consists of over 100 hours of speech data in total, divided into 94 hours of training data, 3.3 hours of validation data, and two test sets with durations of 3.3 hours and 3.58 hours respectively. The dataset also includes a 40-hour large-scale noise dataset to facilitate research on in-vehicle speech data simulation.

提供机构：

共建：西北工业大学、理想汽车有限公司；版权：北京希尔贝壳科技有限公司

创建时间：

2025-05-29

原始信息汇总

数据集概述

数据方案

语音识别
语音合成
声纹识别
自然语言处理
多语种发音词典

数据产品

ChatGPT对话式数据
场景数据
基础数据

开源数据

AISHELL-1
AISHELL-2
AISHELL-3
WakeUp-1
DMASH
AISHELL-4
AISHELL-5
AISHELL-6A
AISHELL-6B
AISHELL-RealMAN
AISHELL-7A

评测数据

2018-EVAL
2019-EVAL
2021-EVAL
2022-EVAL
2023-EVAL

数据竞赛

国际赛事

数据产品详情

智能家居语音数据-中文 (AISHELL-ASR0010)
智能车载语音数据-电动汽车 (AISHELL-ASR0031)
会议数据 (AISHELL-ASR0055)

搜集汇总

数据集介绍

构建方式

AISHELL-5数据集的构建采用了真实车载环境下的多通道录音技术，通过在一辆混合动力电动车内布置四个远场麦克风以及每位说话者佩戴的高保真近场麦克风，采集了超过100小时的多说话者自由对话语音数据。录音过程涵盖了60多种真实驾驶场景，包括不同车速、车窗状态、空调及音响设置等变量组合，以全面模拟复杂车载声学环境。此外，团队还专门录制了40小时的真实环境噪声数据，为语音增强算法的研究提供了重要支持。所有语音数据均经过严格的人工标注，包含说话人身份、时间戳及转写文本等结构化信息。

特点

作为首个开源的 Mandarin 车载多通道多说话者语音数据集，AISHELL-5最显著的特点是同时具备场景多样性和声学复杂性。其远场四通道音频与近场纯净语音的配对设计，为研究说话人分离和语音增强提供了理想条件。数据集特别设计了包含昼夜驾驶、不同车速、车窗开闭状态等60种声学场景的组合，并完整保留了真实场景中的混响、噪声和语音重叠现象。相较于同类数据集，AISHELL-5在数据规模（140小时语音+40小时噪声）和场景覆盖率方面具有明显优势，且所有数据均来自真实驾驶环境而非人工合成。

使用方法

该数据集支持端到端的车载语音处理研究流程，使用者可通过提供的基线系统实现多阶段处理：首先利用声学回声消除（AEC）和独立向量分析（IVA）算法进行前端处理，分离各说话者语音并降噪；随后基于语音活动检测（VAD）分割音频片段；最后通过ASR模块完成语音转录。数据集包含专门划分的训练集（94小时）、开发集（3.3小时）和两个测试集（Eval1/Eval2），其中Eval2需要先进行说话人日志分析。研究者还可利用噪声数据集进行数据增强，通过调整信噪比（-5至5dB范围）模拟不同声学条件。配套开源工具链支持主流的Transformer、Conformer等模型训练与评估。

背景与挑战

背景概述

AISHELL-5数据集由西北工业大学音频、语音与语言处理组（ASLP@NPU）联合北京AISHELL科技有限公司和理想汽车于2025年发布，是首个开源的汽车场景多通道多说话人语音数据集。该数据集聚焦于复杂车载环境下的语音处理技术，包含超过100小时的真实驾驶场景多通道语音数据，覆盖60余种驾驶子场景，通过四车门远场麦克风和头戴式近场麦克风同步采集，并配套提供40小时真实环境噪声数据。作为车载语音识别领域的里程碑式资源，AISHELL-5填补了多说话人重叠语音与复杂声学环境联合建模的数据空白，为智能座舱人机交互系统的研发提供了重要基准。

当前挑战

该数据集主要解决车载场景中两大核心挑战：复杂声学环境下的语音分离与识别，以及多说话人重叠语音的精准区分。在技术层面，需克服发动机噪声、风噪等非平稳干扰与混响效应导致的语音失真问题；在数据构建过程中，面临真实驾驶场景声学参数动态变化（如车速、空调档位等）的系统性采集难题，以及多通道数据时空对齐的标注复杂度。实验表明，主流ASR模型在该数据集上的字符错误率（CER）普遍超过25%，凸显出车载语音处理在噪声鲁棒性和说话人分离性能上的显著技术瓶颈。

常用场景

经典使用场景

AISHELL-5数据集作为首个开源的汽车内多通道多说话者语音数据集，广泛应用于自动语音识别（ASR）和语音分离研究。其多通道录音设计模拟了真实驾驶环境中的复杂声学场景，包括远场和近场语音信号，为研究者提供了评估模型在噪声和重叠语音条件下性能的理想平台。该数据集特别适用于研究车内语音处理中的声学回声消除、噪声抑制和说话者分离等关键技术。

解决学术问题

AISHELL-5数据集解决了车内语音识别领域的两大核心问题：复杂声学环境和重叠语音。通过提供覆盖60多种驾驶场景的100小时语音数据，该数据集支持研究者开发鲁棒的语音前端处理和识别模型。其多通道设计和高保真录音质量使得模型能够在真实噪声和重叠语音条件下进行训练和评估，显著提升了车内语音识别系统的准确性和鲁棒性。

衍生相关工作

AISHELL-5数据集自发布以来，已衍生出多项经典研究工作。基于该数据集的ICMC-ASR挑战赛吸引了近百支参赛队伍，推动了车内多通道语音识别技术的发展。此外，研究者们利用该数据集开发了多种先进的语音前端处理模型，如基于独立向量分析（IVA）的盲源分离算法和SpatialNet模型。这些工作显著提升了车内语音处理的性能，并为后续研究提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集