ContextASR-Bench

Name: ContextASR-Bench
Creator: 阿里巴巴集团
Published: 2025-07-08 15:21:20
License: 暂无描述

arXiv2025-07-08 更新2025-07-10 收录

下载链接：

https://github.com/MrSupW/ContextASR-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

ContextASR-Bench是一个大规模的上下文语音识别基准，由阿里巴巴集团的研究人员创建。该数据集包含超过40000个数据条目，涵盖了超过10个领域，旨在评估语音识别模型在包含或不包含粗粒度或细粒度上下文信息的情况下的性能。数据集包括ContextASR-Speech和ContextASR-Dialogue两个子集，分别用于评估模型对技术术语和命名实体的识别能力以及多说话人对话格式音频的鲁棒性。数据集通过结合大型语言模型（LLM）生成实体丰富的文本，并使用零样本语音合成技术生成自然准确的语音。数据集的发布旨在促进语音识别领域的发展，特别是评估基于LLM的语音识别系统的性能。

ContextASR-Bench is a large-scale contextual automatic speech recognition (ASR) benchmark developed by researchers from Alibaba Group. This dataset comprises over 40,000 data entries spanning more than 10 domains, and is designed to evaluate the performance of speech recognition models with or without coarse-grained or fine-grained contextual information. It includes two subsets: ContextASR-Speech and ContextASR-Dialogue. ContextASR-Speech is targeted at assessing the model's capability to recognize technical terms and named entities, while ContextASR-Dialogue focuses on testing the robustness of speech recognition models against audio in multi-speaker dialogue scenarios. The dataset is constructed by leveraging large language models (LLMs) to generate entity-rich texts, and adopting zero-shot speech synthesis technology to produce natural and accurate speech. The release of this benchmark aims to promote the development of the speech recognition field, especially for the performance evaluation of LLM-based speech recognition systems.

提供机构：

阿里巴巴集团

创建时间：

2025-07-08

原始信息汇总

ContextASR-Bench: 大规模上下文语音识别基准数据集

数据集概述

名称: ContextASR-Bench
类型: 语音识别基准测试数据集
特点: 专注于评估上下文感知的语音识别系统性能
规模: 包含多达40,000条数据条目，覆盖10多个领域

数据集组成

ContextASR-Speech: 测试集之一
ContextASR-Dialogue: 测试集之二
数据结构: 每条数据包含 <音频, 文本, 粗粒度上下文, 细粒度上下文>

数据生成流程

使用DeepSeek-R1生成富含实体的语料库
通过Zero-Shot TTS技术将文本合成为语音

评估设置

无上下文设置: 适用于评估任何ASR系统
粗粒度上下文设置: 评估LALMs对上下文的理解能力
细粒度上下文设置: 评估LALMs对上下文的理解能力

评估指标

WER: 词错误率
NE-WER: 命名实体词错误率
NE-FNR: 命名实体漏检率

数据获取

下载地址: https://huggingface.co/datasets/MrSupW/ContextASR-Bench

评估代码

位置: 数据集中的evaluation文件夹
详情: 参见evaluation/README.md文件

相关论文

标题: ContextASR-Bench: A Massive Contextual Speech Recognition Benchmark
作者: He Wang等
arXiv链接: https://arxiv.org/abs/2507.05727
年份: 2025

搜集汇总

数据集介绍

构建方式

ContextASR-Bench的构建采用了创新的数据流水线，结合了基于大型语言模型（LLM）的实体丰富文本生成与零样本文本到语音（TTS）合成技术。首先，通过开源命名实体识别（NER）数据集和多领域电影信息作为种子，利用DeepSeek-R1生成口语化文本，并扩展实体以提高实体密度。随后，采用零样本TTS模型（如CosyVoice2和XTTS-v2）将文本转换为语音，并随机从超过20,000个参考说话者中选择音色以增强多样性。为确保发音准确性，使用两个ASR系统进行交叉验证，仅保留音素错误率（PER）低于预定阈值的合成语音。

使用方法

ContextASR-Bench的使用分为三个主要评估设置。在无上下文设置中，模型仅根据音频输入进行转录，适用于评估基础语音识别能力。粗粒度上下文设置会提供领域标签或电影名称等高层上下文信息，测试模型利用世界知识的能力。细粒度上下文设置则进一步提供具体的实体列表，评估模型对详细上下文的理解。评估时，除了传统的词错误率（WER），还需计算NE-WER和NE-FNR，重点关注命名实体的识别准确性。数据集支持中英双语评估，用户可根据需要选择ContextASR-Speech或ContextASR-Dialogue子集进行测试。

背景与挑战

背景概述

ContextASR-Bench是由阿里巴巴集团的研究团队于2025年提出的一个大规模上下文语音识别基准数据集。该数据集旨在解决传统自动语音识别（ASR）系统在上下文建模和世界知识整合方面的局限性。随着大型语言模型（LLMs）和大型音频语言模型（LALMs）的发展，ASR系统在通用性和智能性方面的评估需求日益凸显。ContextASR-Bench包含超过40,000条数据条目，覆盖10多个领域，支持无上下文、粗粒度上下文和细粒度上下文三种评估设置，为ASR系统的上下文理解能力提供了全面的评测平台。

当前挑战

ContextASR-Bench面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，传统ASR系统在识别多领域技术术语和命名实体时表现不佳，尤其是在缺乏上下文信息的情况下。ContextASR-Bench通过引入粗粒度和细粒度上下文信息，评估模型在复杂场景下的表现。在构建过程中，挑战包括如何生成高质量的口语化文本、确保合成语音的发音准确性，以及处理多说话人对话的复杂性。此外，数据集的多样性和真实性也是构建过程中需要克服的关键挑战。

常用场景

经典使用场景

ContextASR-Bench作为首个专注于上下文语音识别的基准测试，其经典使用场景在于评估语音识别系统在不同粒度上下文信息下的表现。该数据集通过包含粗粒度领域标签和细粒度实体列表的提示，模拟了真实场景中人类对话对背景知识的依赖。研究人员可利用其40,000条跨10余领域的语料，系统分析模型在医疗、文化、生态等专业领域中的术语识别能力，特别是在多说话人对话场景下对电影角色、专业名词等命名实体的捕捉精度。

解决学术问题

该数据集有效解决了传统ASR评估中忽视上下文建模的核心问题。通过设计无上下文、粗粒度上下文和细粒度上下文三种评估模式，首次量化了大型音频语言模型（LALMs）在世界知识整合与上下文推理方面的优势。其实体中心评估指标NE-WER和NE-FNR，突破了传统WER对关键内容识别不敏感的局限，为研究语言模型如何通过领域知识和具体语境提升语音识别准确率提供了标准化的测量工具。

实际应用

在实际应用中，ContextASR-Bench可显著提升专业场景的语音交互质量。医疗领域的诊断记录转录可通过注入医学术语实体列表提升准确率；影视行业的自动字幕生成能利用电影元数据优化角色名称识别；金融客服系统则可结合领域标签增强专业词汇捕捉。其合成的多说话人对话数据还能优化会议转录系统对发言人的区分能力。

数据集最近研究