ASR-EC

Name: ASR-EC
Creator: 香港科技大学计算机科学与工程系
Published: 2024-12-04 14:52:10
License: 暂无描述

arXiv2024-12-04 更新2024-12-06 收录

下载链接：

http://arxiv.org/abs/2412.03075v1

下载链接

链接失效反馈

官方服务：

资源简介：

ASR-EC数据集是由香港科技大学计算机科学与工程系创建的，专门用于评估大型语言模型在中文自动语音识别错误纠正方面的能力。该数据集包含来自THCHS-30、AISHELL-1、AISHELL-2和WeNetSpeech的音频数据，总计约544,551条语音记录。数据集的创建过程基于Kaldi-K1和Kaldi-K2工具，通过处理这些音频数据生成错误转录，以模拟实际应用中的语音识别错误。ASR-EC数据集主要应用于语音识别系统的错误纠正研究，旨在提高语音识别系统的准确性和鲁棒性。

The ASR-EC Dataset was developed by the Department of Computer Science and Engineering at the Hong Kong University of Science and Technology, specifically designed to evaluate the performance of large language models (LLMs) in Chinese automatic speech recognition (ASR) error correction. This dataset includes audio data sourced from THCHS-30, AISHELL-1, AISHELL-2 and WeNetSpeech, totaling approximately 544,551 speech recordings. The dataset was constructed using the Kaldi-K1 and Kaldi-K2 toolkits, where erroneous transcriptions were generated by processing the aforementioned audio data to simulate realistic speech recognition errors in real-world applications. The ASR-EC dataset is primarily utilized for research on error correction in speech recognition systems, with the objective of improving the accuracy and robustness of speech recognition systems.

提供机构：

香港科技大学计算机科学与工程系

创建时间：

2024-12-04

搜集汇总

数据集介绍

构建方式

ASR-EC数据集的构建基于Kaldi-K1和Kaldi-K2两个行业级ASR系统，通过对THCHS-30、AISHELL-1、AISHELL-2和WeNetSpeech四个开源中文语音语料库的处理，生成了广泛范围的ASR错误。该数据集旨在评估大型语言模型在不同长度语音片段上的错误修正能力，分为短句子和长句子两个子集，平均字符长度分别为13和38。

使用方法

ASR-EC数据集适用于评估和训练大型语言模型在中文ASR错误修正中的表现。研究者可以通过该数据集进行模型微调、多步提示和多模态增强等方法的实验。数据集的短句子和长句子子集分别提供了不同难度级别的测试场景，有助于全面评估模型在实际应用中的错误修正能力。

背景与挑战

背景概述

自动语音识别（ASR）作为语音与自然语言处理领域的基础任务，广泛应用于语音助手、语音翻译等众多应用中。尽管近年来ASR技术取得了显著进展，但由于环境噪声、语音模糊等因素，现代ASR系统仍不可避免地存在大量识别错误。因此，ASR错误校正显得尤为重要。在此背景下，香港科技大学、微众银行及深圳大学的研究团队于2024年创建了首个中文ASR错误校正基准数据集ASR-EC。该数据集包含了由工业级ASR系统生成的广泛类型的ASR错误，旨在评估大型语言模型（LLMs）在不同长度语音中的错误校正能力。ASR-EC的发布不仅填补了中文ASR错误校正领域的空白，还为未来研究提供了坚实的基础。

当前挑战

ASR-EC数据集的构建面临多重挑战。首先，如何从现有的大规模中文语音语料库中筛选出具有代表性的错误样本，确保数据集的多样性和覆盖面，是一个复杂的过程。其次，由于ASR系统在不同环境下的表现差异，生成高质量的错误样本需要精确的ASR管道和丰富的语音数据。此外，如何有效地利用LLMs进行错误校正，尤其是在零样本、少样本和多步提示等不同范式下的表现，也是当前研究的重点和难点。实验结果表明，尽管多模态增强方法在错误校正中表现出色，但LLMs在处理需要深度上下文理解的错误时仍显不足，这为未来的研究提出了新的方向和挑战。

常用场景

经典使用场景

ASR-EC数据集的经典使用场景主要集中在评估和提升大型语言模型（LLMs）在中文自动语音识别（ASR）错误校正中的表现。该数据集通过包含由工业级ASR系统生成的广泛错误类型，为研究人员提供了一个全面的基准，用于测试和优化LLMs在纠正ASR错误方面的能力。具体应用包括在语音助手、语音翻译等应用中，通过纠正常见的语音识别错误，提高系统的整体准确性和用户体验。

解决学术问题

ASR-EC数据集解决了中文ASR错误校正领域缺乏标准化基准的问题。通过提供一个包含多种错误类型和难度级别的数据集，ASR-EC为学术界提供了一个统一的评估平台，促进了针对中文ASR错误校正的研究。这不仅有助于提升现有ASR系统的性能，还为开发新的错误校正算法和技术提供了宝贵的资源，推动了语音识别和自然语言处理领域的进步。

实际应用

ASR-EC数据集在实际应用中主要用于优化和验证中文语音识别系统的错误校正模块。通过使用该数据集进行模型训练和测试，开发者可以显著提高语音助手、语音翻译系统等应用的准确性和鲁棒性。此外，ASR-EC还可以用于培训和评估多模态模型，这些模型结合了音频和文本数据，以更全面地理解和纠正语音识别错误，从而在实际应用中提供更高质量的服务。

数据集最近研究