ContextASR-Bench

github2025-07-09 更新2025-07-10 收录

下载链接：

https://github.com/MrSupW/ContextASR-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

ContextASR-Bench是一个全面的大规模基准测试，旨在评估上下文语音识别。该基准测试涵盖了超过10个领域的40,000个数据条目，能够全面评估模型在省略或包含粗粒度或细粒度上下文信息的情况下的性能。此外，与传统的ASR评估不同，我们的基准测试还包括对模型在识别听觉输入中提到的命名实体的效果的分析。

ContextASR-Bench is an extensive large-scale benchmark designed to evaluate contextual speech recognition. This benchmark encompasses over 40,000 data entries across more than 10 domains, allowing for a comprehensive assessment of model performance under conditions where coarse-grained or fine-grained contextual information is omitted or included. Additionally, unlike traditional ASR evaluations, our benchmark includes an analysis of the model's effectiveness in identifying named entities mentioned in auditory inputs.

创建时间：

2025-07-09

原始信息汇总

ContextASR-Bench 数据集概述

数据集简介

名称: ContextASR-Bench: A Massive Contextual Speech Recognition Benchmark
目的: 评估上下文语音识别模型的性能，特别是针对大型语言模型（LLMs）和大型音频语言模型（LALMs）的上下文理解能力。
特点:
- 包含多达40,000个数据条目，覆盖超过10个领域。
- 评估模型在无上下文、粗粒度上下文和细粒度上下文场景下的表现。
- 特别关注命名实体识别的准确性。

数据集结构

组成部分:
- ContextASR-Speech: 语音测试集。
- ContextASR-Dialogue: 对话测试集。
数据条目结构: <Audio, Text, Coarse-grained Context, Fine-grained Context>
生成流程: 使用DeepSeek-R1生成实体丰富的语料库，并通过Zero-Shot TTS合成为语音。

评估设置与指标

评估设置:
1. 无上下文设置：适用于任何ASR系统。
2. 粗粒度上下文设置：评估LALMs的上下文理解能力。
3. 细粒度上下文设置：评估LALMs的上下文理解能力。
评估指标:
- WER: 词错误率。
- NE-WER: 命名实体词错误率。
- NE-FNR: 命名实体假阴性率。

数据下载与评估代码

下载地址: Huggingface
评估代码: 位于evaluation文件夹，详情参见evaluation/README.md。

引用

bibtex @article{wang2025asrbench, title={ContextASR-Bench: A Massive Contextual Speech Recognition Benchmark}, author={He Wang and Linhan Ma and Dake Guo and Xiong Wang and Lei Xie and Jin Xu and Junyang Lin}, year={2025}, eprint={2507.05727}, archivePrefix={arXiv}, primaryClass={eess.AS}, url={https://arxiv.org/abs/2507.05727}, }

搜集汇总

数据集介绍

构建方式

在自动语音识别（ASR）领域，ContextASR-Bench通过创新的数据构建流程实现了对上下文信息的全面覆盖。该数据集采用DeepSeek-R1生成富含实体的文本语料，并借助零样本文本转语音（TTS）技术合成语音数据。每个数据条目均包含音频、文本、粗粒度上下文和细粒度上下文四元组结构，形成ContextASR-Speech和ContextASR-Dialogue两个测试集，覆盖10余个领域的40,000条数据条目。这种构建方式有效模拟了真实场景中语音识别系统需要处理的多层次上下文信息。

使用方法

研究者可通过Huggingface平台获取ContextASR-Bench数据集，其结构化设计支持灵活的评估流程。数据集配套提供的评估代码位于evaluation目录，支持用户根据需求选择不同的上下文设置进行测试。使用时应首先加载音频数据及对应上下文元数据，随后通过对比模型输出与标注文本计算WER、NE-WER等指标。对于LALMs等先进模型，可通过在提示词中嵌入不同粒度的上下文信息，全面评估其上下文推理和世界知识运用能力。

背景与挑战

背景概述

ContextASR-Bench作为一项大规模上下文语音识别基准测试，由Wang等人于2025年提出，旨在填补传统自动语音识别（ASR）系统在上下文建模能力上的评估空白。该数据集由DeepSeek-R1生成的实体丰富语料库构成，通过零样本文本转语音技术合成，涵盖10余个领域的4万条数据条目，每条数据均包含音频、文本、粗粒度上下文和细粒度上下文四元组结构。其创新性体现在首次系统性地评估了大型音频语言模型（LALMs）在命名实体识别和世界知识推理方面的性能，为语音识别向通用人工智能方向发展提供了关键评估工具。

当前挑战

该数据集主要应对两大核心挑战：在领域问题层面，传统ASR系统因缺乏上下文建模能力，在实体识别和跨领域适应性方面表现欠佳，ContextASR-Bench通过引入多粒度上下文评估设置，有效衡量模型对世界知识的利用效率；在构建过程中，需解决实体丰富语料生成、跨领域语音合成一致性，以及细粒度上下文与音频对齐等技术难题，其中命名实体加权词错误率（NE-WER）等新型评估指标的建立，为量化模型在语义理解深度上的差异提供了创新解决方案。

常用场景

经典使用场景

在语音识别领域，ContextASR-Bench数据集被广泛应用于评估模型在上下文感知场景下的性能。通过提供包含粗粒度和细粒度上下文信息的语音数据，该数据集能够全面测试模型在不同领域中的识别能力。特别是在处理包含命名实体的语音输入时，数据集为研究者提供了丰富的测试素材，帮助验证模型对上下文的理解和记忆能力。

解决学术问题

ContextASR-Bench解决了传统语音识别模型在上下文建模方面的不足。通过引入大规模多领域数据，该数据集为研究社区提供了一个标准化的评估平台，用于验证模型在复杂语境下的表现。其独特的命名实体识别评估指标（NE-WER和NE-FNR）进一步填补了传统词错误率（WER）在实体识别精度评估上的空白，推动了语音识别技术向更智能化的方向发展。

实际应用

在实际应用中，ContextASR-Bench数据集为智能助手、语音搜索和实时翻译系统等场景提供了重要的测试基准。通过模拟真实世界中的复杂对话环境，该数据集帮助开发者优化模型在嘈杂背景或多轮对话中的表现。特别是在医疗、法律等专业领域，数据集的高质量标注为领域专用语音识别系统的开发提供了宝贵资源。

数据集最近研究