five

ISCSLP 2022智能座舱语音识别挑战赛数据集|语音识别数据集|智能座舱数据集

收藏
arXiv2022-11-03 更新2024-06-21 收录
语音识别
智能座舱
下载链接:
https://iscslp2022-icsrc.org
下载链接
链接失效反馈
资源简介:
ISCSLP 2022智能座舱语音识别挑战赛数据集由西北工业大学计算机学院音频、语音和语言处理组创建,包含20小时的新能源汽车内语音数据,覆盖多种座舱声学条件和语言内容。数据集分为10小时的评估集和11小时的测试集,涉及空调控制、电话呼叫、音乐播放、导航等多种命令类型。创建过程中特别考虑了车内复杂的声学环境,旨在为车辆嵌入式及云端自动语音识别系统提供高质量数据,以提升驾驶安全和体验。
提供机构:
西北工业大学计算机学院音频、语音和语言处理组(ASLP@NPU)
创建时间:
2022-11-03
AI搜集汇总
数据集介绍
main_image_url
构建方式
ISCSLP 2022智能座舱语音识别挑战赛数据集的构建基于真实驾驶环境中的语音采集。数据采集在一辆新能源车内进行,使用高保真麦克风记录,麦克风位于车辆显示屏上,距离说话者约0.5米。采集过程中,车辆在不同路况下行驶,包括城市街道和高速公路,同时模拟了开窗、关窗、播放音乐等多种声学条件。数据集包含20小时的普通话语音数据,分为10小时的评估集和11小时的测试集,涵盖了空调控制、电话拨打、音乐播放、导航等多种语音命令。
特点
该数据集的特点在于其多样化的声学环境和丰富的语言内容。数据集中的语音数据覆盖了广泛的信噪比范围,包括强噪声环境下的语音采集。此外,数据集特别关注了智能座舱中的语音交互内容,如控制命令、导航指令等,这些内容涉及大量的命名实体,如联系人、歌手名和兴趣点名称。数据集的设计旨在模拟真实驾驶环境中的复杂声学条件,为智能座舱语音识别系统的研究提供了宝贵的资源。
使用方法
ISCSLP 2022数据集的使用方法主要围绕智能座舱语音识别系统的开发和评估展开。数据集分为评估集和测试集,评估集可用于模型的微调,而测试集则用于最终的挑战评分和排名。参与者可以使用开源语料库进行模型训练,但需遵守挑战赛的约束条件。数据集的使用不仅限于语音识别模型的训练,还可用于研究语音增强、噪声抑制、多说话者分离等技术,以提升智能座舱语音交互系统的鲁棒性和准确性。
背景与挑战
背景概述
随着汽车逐渐成为人类日常生活中不可或缺的一部分,智能座舱的概念应运而生,旨在通过整合多模态智能交互(如语音、手势等)与多种功能(如命令识别、娱乐、导航等),为驾驶员和乘客提供无缝的驾驶与座舱体验。作为自然用户界面(NUI),自动语音识别(ASR)系统的鲁棒性至关重要。2022年,ISCSLP智能座舱语音识别挑战赛(ICSRC)应运而生,旨在推动智能座舱场景下的语音识别研究。该挑战赛由西北工业大学音频、语音与语言处理组(ASLP@NPU)等机构联合主办,发布了一个包含20小时普通话语音的数据集,涵盖了多种座舱声学条件和语言内容。该数据集为新能汽车(NEV)环境下语音识别研究提供了重要的基准。
当前挑战
智能座舱语音识别面临多重挑战。首先,座舱声学环境复杂,封闭且不规则的空间导致特殊的房间脉冲响应(RIR)和混响条件,同时驾驶过程中存在多种噪声(如风噪、发动机噪声、背景音乐等)。其次,语言内容识别存在挑战,尤其是涉及大量命名实体(如联系人、歌手名、兴趣点等)的命令识别,这些实体在训练数据中较为罕见,导致识别准确率较低。此外,数据稀疏性也是研究的主要障碍,座舱环境下的语音采集难度较大,覆盖多种声学条件的录音更具挑战性。为解决这些问题,研究者需探索噪声抑制、多说话人分离、动态上下文注入等技术,同时需开发更高效的领域适应方法以提升识别性能。
常用场景
经典使用场景
ISCSLP 2022智能座舱语音识别挑战赛数据集主要用于评估和优化在复杂车内环境下的自动语音识别(ASR)系统。该数据集涵盖了多种车内声学条件和语言内容,特别适用于研究资源受限和不受限的ASR系统。通过该数据集,研究人员可以测试和比较不同模型在车内噪声、回声和多说话人场景下的表现,从而推动智能座舱语音识别技术的发展。
衍生相关工作
ISCSLP 2022数据集催生了一系列相关研究工作,特别是在车内语音识别领域。基于该数据集,研究人员提出了多种改进的ASR模型,如结合CTC和注意力机制的混合模型、基于Conformer的端到端模型等。此外,该数据集还推动了多模态融合技术的发展,如结合音频和视觉信息的语音识别系统。这些工作不仅提升了车内语音识别的性能,还为未来的智能座舱技术研究提供了新的方向。
数据集最近研究
最新研究方向
随着智能座舱技术的快速发展,语音识别作为其核心交互方式之一,面临着复杂声学环境和多样化语言内容的挑战。ISCSLP 2022智能座舱语音识别挑战赛数据集(ICSRC)的发布,为这一领域的研究提供了重要的实验平台。该数据集涵盖了新能源车辆(NEV)中的多种声学条件和语言内容,特别针对资源受限和不受限的两种场景设置了不同的赛道,分别面向车载嵌入式系统和云端ASR系统。近年来,基于端到端(E2E)神经网络的语音识别技术,如CTC、RNN-T和AED等,逐渐成为研究热点。然而,车内复杂的声学环境(如噪声、混响)以及涉及大量命名实体的语言内容(如导航指令、联系人名称)仍然是当前研究的难点。为此,研究者们探索了多种技术手段,包括噪声抑制、多说话人分离、动态上下文注入以及多模态融合等。此外,数据稀疏问题也制约了智能座舱场景下的语音识别研究,而ICSRC数据集的发布为这一领域提供了宝贵的实验数据。未来,随着新能源车辆的普及,语音接口将在智能座舱中扮演更加重要的角色,推动语音识别及相关技术的进一步发展。
相关研究论文
  • 1
    The ISCSLP 2022 Intelligent Cockpit Speech Recognition Challenge (ICSRC): Dataset, Tracks, Baseline and Results西北工业大学计算机学院音频、语音和语言处理组(ASLP@NPU) · 2022年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

ReferCOCO数据集

ReferCOCO数据集包括refcoco、refcoco+和refcocog三个子集,用于视觉定位任务。数据集包含图像和对应的描述性文本,用于训练和测试模型识别图像中特定对象的能力。

github 收录