BSTC (Baidu Speech Translation Corpus)
收藏arXiv2021-04-27 更新2024-06-21 收录
下载链接:
https://aistudio.baidu.com/aistudio/competition/detail/44
下载链接
链接失效反馈官方服务:
资源简介:
BSTC是由百度公司创建的大规模中英双语语音翻译数据集,包含约68小时的普通话数据及其人工转录和英译文本,以及自动语音识别(ASR)模型的转录结果。该数据集旨在推动自动同声传译的研究和实用系统的发展,适用于自动同声传译系统的评估。数据集内容涵盖多个领域,如IT、经济、文化等,通过收集授权的视频讲座构建而成。
BSTC is a large-scale Chinese-English bilingual speech translation dataset created by Baidu. It includes approximately 68 hours of Mandarin speech data paired with their manual transcriptions, English translated texts, as well as the transcription results generated by automatic speech recognition (ASR) models. This dataset aims to advance research on automatic simultaneous interpretation and the development of practical application systems, and serves as a benchmark for evaluating automatic simultaneous interpretation systems. The dataset covers multiple domains such as IT, economics, culture and others, and is constructed by collecting authorized video lectures.
提供机构:
百度公司
创建时间:
2021-04-08
搜集汇总
数据集介绍

构建方式
在自动语音翻译研究领域,高质量双语数据集的构建是推动技术进步的关键。BSTC数据集的构建过程体现了严谨的学术设计,其核心材料来源于多个授权讲座视频。研究团队首先对约68小时的普通话音频进行人工时间戳标注,将其切分为独立句子,并聘请专业人员为每个句子提供精确的转录和英文翻译。为增强数据集的实用性,团队进一步利用流式自动语音识别模型生成了自动化转录文本,并为训练集提供了前5个最佳识别结果。针对测试集,为模拟真实同声传译场景,不仅提供了流式转录和ASR结果,还邀请了三位经验丰富的译员在模拟会议环境中进行同声传译,从而构建了一个包含音频、人工转录、自动识别结果、参考译文及真人同传的四路平行语料库。
特点
BSTC数据集在汉语-英语语音翻译领域具有鲜明的特色。其最显著的优势在于规模与质量并重,68小时的语音数据有效填补了该方向公开数据稀缺的空白。数据集严格保留了口语中的不规则现象,如填充词、无意识重复等,为研究神经机器翻译模型处理口语的鲁棒性提供了宝贵资源。同时,其训练集与开发/测试集采用了不同的构建逻辑:训练集侧重于句子级的精准对齐,而开发集和测试集则专注于模拟流式输入的同声传译场景,提供了逐词增长的流式文本。此外,数据集附带的真人同传译文为评估自动同传系统的翻译质量与信息取舍策略提供了重要的人类基准。
使用方法
该数据集为语音翻译与同声传译两大研究方向提供了统一的评估平台。对于离线语音翻译任务,研究者可利用训练集中的音频-转录-译文三元组,或结合ASR结果构建端到端或级联系统模型,并在开发集和测试集上以句子边界为切割点进行翻译质量评估。针对同声传译任务,则需处理测试集提供的流式ASR或流式转录输入,并设计合理的分段策略,在翻译质量与系统延迟之间进行权衡,可利用数据集提供的人类同传结果作为参照。此外,该数据集也可转化为中文拼写纠错或篇章级中文-英文文档翻译任务的数据来源,体现了其多用途的研究价值。
背景与挑战
背景概述
随着自动语音翻译技术的商业潜力日益凸显,尤其是在同声传译等实时应用场景中,构建高质量的大规模语音翻译数据集成为推动该领域发展的关键。在此背景下,百度公司于2021年发布了BSTC(Baidu Speech Translation Corpus),这是一个专注于中文到英文的大规模语音翻译数据集。该数据集由百度研究院的团队主导构建,核心研究问题在于解决中文与英文之间语音翻译数据稀缺的困境,特别是针对同声传译任务的高质量、大规模语料需求。BSTC基于授权的讲座类视频构建,包含约68小时的普通话音频、人工转录文本、英文翻译以及自动语音识别结果,其发布显著填补了中英语音翻译领域的资源空白,为训练数据饥渴的神经模型提供了坚实基础,并推动了自动同声传译系统的评估与研究进展。
当前挑战
BSTC数据集旨在应对的领域挑战主要集中于中英文自动同声传译系统的开发与评估。具体而言,该领域需解决在极低延迟下保持翻译准确性与流畅性的平衡问题,同时处理语音信号中的噪声、不流利表达以及实时语音识别的错误传播。在构建过程中,团队面临多重挑战:首先,收集并标注大规模、多领域的中文演讲数据,并确保其英文翻译的忠实性与上下文连贯性,这需要耗费大量专业人力进行句子切分、转录与翻译;其次,为模拟真实同声传译场景,需设计流式转录与自动语音识别结果,并处理音频分割导致的识别错误,例如训练集的词错误率高达27.90%;此外,邀请经验丰富的口译员进行模拟会议环境下的同声传译,以创建高质量的测试基准,并协调多参考评估中的可接受性与BLEU分数之间的差异,亦是一项复杂任务。
常用场景
经典使用场景
在语音翻译研究领域,BSTC数据集常被用于构建和评估端到端或级联式的中文到英文自动语音翻译系统。该数据集通过提供约68小时的普通话音频、人工转录文本、自动语音识别结果及英文翻译,为模型训练与测试奠定了坚实基础。其经典应用场景包括模拟真实会议环境下的同声传译任务,研究人员利用数据集中包含的流式转录和流式ASR结果,设计算法以平衡翻译质量与延迟,推动自动同声传译技术的发展。
实际应用
在实际应用中,BSTC数据集为开发智能会议系统、实时跨语言通信工具以及教育领域的自动翻译平台提供了关键数据支持。基于该数据集训练的模型可集成于视频会议软件或移动设备中,实现中文演讲到英文的实时转译,提升国际交流效率。此外,数据集中的多领域讲座内容(涵盖IT、经济、文化等)也有助于构建面向特定行业的专业翻译系统,满足商业与学术场景下的多语言信息处理需求。
衍生相关工作
围绕BSTC数据集,学术界衍生了一系列经典研究工作,主要集中在同声传译策略优化与鲁棒性语音翻译模型设计。例如,研究人员利用数据集中的流式文本分割机制,开发了基于有意义单元的自适应分割策略,以降低翻译延迟。同时,结合上下文感知的翻译方法,提升了段落级翻译的连贯性。这些工作不仅推动了自动同声传译评测标准的完善,也为端到端语音翻译模型的训练提供了新的数据增强与领域适应思路。
以上内容由遇见数据集搜集并总结生成



