术语增强语音识别与翻译数据集
收藏arXiv2025-08-26 更新2025-08-28 收录
下载链接:
https://github.com/bytedance/Attention2Probability
下载链接
链接失效反馈官方服务:
资源简介:
该数据集旨在支持语音识别和翻译任务中的术语干预研究,通过重新利用实体识别(NER)数据集中的实体作为术语,并使用MegaTTS生成相应的语音数据,以及从LibriSpeech和Aishell-2数据集中提取特定词汇或短语作为术语,从而构建了一个用于术语增强语音识别与翻译任务的专用数据集。该数据集包含中文和英文数据,并通过ComMT术语翻译测试集进行评估。
This dataset is developed to support terminology intervention research for speech recognition and translation tasks. Specifically, it constructs a specialized dataset for terminology-enhanced speech recognition and translation tasks by reusing entities from Named Entity Recognition (NER) datasets as terminology, generating corresponding speech data via MegaTTS, and extracting specific words or phrases as terminology from LibriSpeech and Aishell-2 datasets. This dataset includes Chinese and English data and is evaluated using the ComMT terminology translation test set.
提供机构:
东北大学计算机科学与工程学院,抖音,牛传研究院
创建时间:
2025-08-26
原始信息汇总
Attention2Probability (A2P) 数据集概述
数据集名称
Attention2Probability (A2P)
核心目标
提供一种轻量级的语音术语干预方案,通过交叉注意力机制检索音频中可能出现的术语,并将这些术语添加到大型语言模型的提示中,以实现术语干预。
关键特性
- 利用交叉注意力检索器从音频特征中提取出现概率最高的Top-k术语
- 将检索到的术语与提示词拼接后输入语音大语言模型
- 支持词级和短语级粒度配置
数据配置
- 短语类型参数(phrase_type)可调整指定词级或短语级粒度
- 中文模型通常仅在短语级进行训练,因为词级粒度对中文无意义
相关资源
- 论文地址:https://arxiv.org/abs/2508.18701
- 模型地址:https://huggingface.co/ByteDance/Attention2Probability
- 数据集地址:https://huggingface.co/datasets/ByteDance/Attention2Probability
发布时间
2025年8月27日发布A2P的训练和推理代码
引用信息
bibtex @inproceedings{ dy2025attention, title={Attention2Probability: Attention-Driven Terminology Probability Estimation for Robust Speech-to-Text System}, author={Yangfan Du, Jun Zhang, Bin Wang, Jin Qiu, Lu Huang, Yuan Ge, Xiaoqian Liu, Tong Xiao, Jingbo Zhu}, }
搜集汇总
数据集介绍

构建方式
在语音识别与翻译领域,专业术语的准确处理一直是技术难点。该数据集通过创新性的多源数据融合策略构建:首先从多个命名实体识别数据集中提取专业术语实体,包括Wikiann、MSRA-NER、Few-nerd和CMeEE等权威语料;随后利用MegaTTS语音合成系统为这些术语的文本定义生成对应的高质量语音数据;同时整合LibriSpeech和Aishell-2等大规模语音数据集,将其中的特定词汇或短语标注为术语,有效扩充了数据规模。这种构建方式确保了数据在语言覆盖度和领域专业性方面的平衡。
特点
该数据集最显著的特点是实现了语音信号与专业术语的精准对齐,涵盖中英文双语环境。数据集包含超过1000小时的语音素材和数十万条术语标注,术语类型覆盖医学、科技、新闻等多个专业领域。每个术语条目都配备了完整的语音-文本对映关系,并经过严格的质控流程验证。数据集特别注重术语的时效性和准确性,所有术语均来自权威基准测试集,确保了数据在真实应用场景中的可靠性。这种多模态、多语言的专业术语数据集在当前研究领域具有独特价值。
使用方法
该数据集主要用于训练和评估术语增强的语音识别与翻译系统。研究人员可以将其作为训练语料,通过跨模态注意力机制建立语音特征与术语文本之间的关联模型。在推理阶段,系统能够根据输入的语音信号实时检索相关的专业术语,并将其作为上下文信息注入到大型语言模型的提示中。数据集还支持课程学习策略的实施,允许从单词级到短语级再到真实术语级的渐进式训练。此外,数据集提供的标准测试集可用于客观评估不同算法在术语召回率和生成准确性方面的性能表现。
背景与挑战
背景概述
术语增强语音识别与翻译数据集由字节跳动与东北大学联合团队于2025年创建,旨在解决语音大模型在专业领域术语识别与翻译中的瓶颈问题。该数据集聚焦跨模态术语检索的核心研究挑战,通过整合MegaTTS语音合成技术与多源术语库,构建了中英双语的大规模语音-术语对齐语料。其创新性体现在首次将命名实体识别数据转化为语音术语样本,为语音大模型的上下文学习机制提供了关键数据支撑,显著推动了专业领域语音处理技术的发展。
当前挑战
该数据集主要应对两大挑战:在领域问题层面,需解决语音大模型对动态演进术语的适应性不足问题,特别是医学、科技等领域新术语的准确生成与翻译;在构建过程中,面临语音与文本模态对齐的复杂性,包括跨语言术语的语音表征差异、术语长度分布异构性导致的训练不稳定,以及大规模术语库检索时计算效率与精度平衡的工程挑战。
常用场景
经典使用场景
在语音识别与机器翻译领域,术语增强语音识别与翻译数据集为研究跨模态术语检索与干预提供了关键支撑。该数据集通过整合多源命名实体识别数据与合成语音,构建了中英双语术语-语音配对语料,广泛应用于语音大语言模型的术语感知能力评估。其经典使用场景包括术语检索模型的训练与验证,以及语音大语言模型在术语干预下的识别与翻译性能测试,为领域适应性语音处理研究奠定了数据基础。
实际应用
在实际应用中,该数据集为医疗、游戏等垂直领域的语音交互系统提供了术语处理解决方案。例如,在医疗语音转录场景中,系统可通过检索数据集训练的模型准确识别“SARS-CoV-2”等专业术语,避免通用语音模型误译。同时,其支持的动态术语干预技术可集成于会议转录、同声传译等实时系统,提升领域特定术语的生成准确性,满足高精度语音处理的实际需求。
衍生相关工作
该数据集衍生出多项经典研究工作,例如基于注意力机制的术语概率估计框架Attention2Probability,其通过跨注意力权重直接计算术语出现概率,替代了传统向量数据库检索模式。此外,基于该数据集开展的课程学习策略研究,提出了从词级到短语级再到真实术语级的渐进训练方法,显著提升了检索模型对长短术语的适应性。这些工作为语音术语干预领域建立了新的技术路线与评估标准。
以上内容由遇见数据集搜集并总结生成



