Boston University Radio News Corpus (BU)

Name: Boston University Radio News Corpus (BU)
Creator: 认知机器学习，ENS–CNRS–EHESS–INRIA–PSL研究大学，法国
Published: 2023-06-01 16:11:15
License: 暂无描述

arXiv2023-06-01 更新2024-06-21 收录

下载链接：

https://download.zerospeech.com/datasets/prosaudit-dataset.zip

下载链接

链接失效反馈

官方服务：

资源简介：

Boston University Radio News Corpus (BU) 是一个专业的英语新闻故事集合，包含单词和音素级别的转录以及基于美国英语ToBI系统的韵律层次注释。该数据集用于创建评估集，通过选择满足特定标准的段落来构建，这些标准包括段落必须开始和结束于语调短语（IP）边界，并包含一个内部韵律边界。数据集的创建过程涉及自动删除现有注释的暂停，并应用交叉淡入淡出来防止音频的突然切断或跳跃。该数据集主要用于评估自监督学习语音模型在结构韵律知识方面的能力，特别是在语法和词汇任务中的表现。

The Boston University Radio News Corpus (BU) is a professional collection of English news stories, featuring word-level and phoneme-level transcriptions as well as prosodic hierarchical annotations based on the American English ToBI system. This corpus is used to build evaluation sets, which are constructed by selecting passages that meet specific criteria: the passages must start and end at Intonational Phrase (IP) boundaries, and contain one internal prosodic boundary. The construction process of this corpus involves automatically removing pauses from existing annotations and applying cross-fading techniques to prevent abrupt audio cuts or jumps. This dataset is primarily utilized to evaluate the structural prosodic knowledge capabilities of self-supervised learning speech models, particularly their performance in syntactic and lexical tasks.

提供机构：

认知机器学习，ENS–CNRS–EHESS–INRIA–PSL研究大学，法国

创建时间：

2023-02-23

搜集汇总

数据集介绍

构建方式

在语音处理领域，构建高质量的数据集对于评估自监督学习模型至关重要。ProsAudit基准的构建依托于波士顿大学广播新闻语料库，该语料库包含专业朗读的新闻故事，并附有基于美国英语ToBI系统的韵律层级标注。研究团队依据特定标准筛选语段，要求每个语段以语调短语边界开始和结束，并包含一个内部韵律边界。随后，通过自动删除现有标注的停顿，并应用交叉淡化技术以避免音频的突兀截断，最终在选定位置插入400毫秒的停顿，生成了用于原句法任务和词汇任务的刺激对。这一过程确保了数据集的科学性和一致性，为模型评估提供了可靠基础。

使用方法

使用ProsAudit数据集时，研究者可将其作为零样本评估工具，应用于自监督语音模型的韵律知识测试。评估过程涉及计算模型对“自然”与“非自然”刺激对的生成概率，通过比较概率高低来评分，最终以平均准确率作为模型性能指标。数据集已整合至零资源语音挑战的第四轨道，方便研究者在统一平台上进行模型比较与分析。此外，用户还可参考提供的人类评估分数，将模型表现与人类基准对照，从而深入探究模型的韵律编码能力及其与语言习得的关系。

背景与挑战

背景概述

波士顿大学广播新闻语料库（Boston University Radio News Corpus，简称BU）由M. Ostendorf、P. J. Price和S. Shattuck-Hufnagel等人于1995年创建，旨在为语音学研究提供高质量的标注资源。该语料库收录了专业播音员朗读的新闻故事，并配备了精细的音素、词汇及韵律层级标注，特别是基于ToBI系统的韵律结构标记。其核心研究问题聚焦于韵律在语言处理中的作用，包括节奏、重音和语调如何影响句法边界感知与词汇切分。BU语料库在语音合成、语音识别及韵律建模领域产生了深远影响，为后续研究提供了标准化的评估基准，尤其在自监督学习模型中韵律知识的测评方面发挥了关键作用。

当前挑战

BU语料库所解决的领域问题在于评估自监督语音模型对结构韵律知识的编码能力，具体挑战包括模型如何准确区分强弱韵律边界以及词汇内外的停顿位置。这些任务要求模型不仅捕捉韵律特征，还需整合词汇信息，尤其在跨语言场景下非母语模型表现显著下降，突显了语言特定性带来的困难。在构建过程中，挑战主要源于数据预处理与标注一致性：需从原始音频中筛选符合特定时长与边界条件的片段，并人工插入停顿以创建对比刺激，同时确保韵律标注与ToBI标准对齐，避免因标注偏差影响评估的可靠性。

常用场景

经典使用场景

在语音处理领域，波士顿大学广播新闻语料库（BU）作为一项经典资源，常被用于韵律结构分析的研究。该语料库包含专业朗读的新闻故事，并附有基于ToBI系统的韵律层级标注，为研究者提供了丰富的语音边界信息。在ProsAudit基准测试中，BU语料库被精心筛选，用于构建评估自监督学习模型韵律知识的刺激对，通过插入人工暂停来模拟自然与不自然的韵律边界，从而系统检验模型对句子和词汇层面韵律结构的理解能力。

解决学术问题

BU语料库的引入，有效解决了语音自监督学习模型中韵律知识评估的空白问题。传统研究多聚焦于语音的声学、词汇或句法层面，而韵律作为语言理解的关键组成部分，其结构性表征在模型中长期缺乏系统度量。通过ProsAudit基准，研究者能够量化模型对强弱韵律边界及词汇内外暂停的区分能力，这不仅揭示了模型是否内隐地习得了韵律规律，还为比较不同模型架构、训练数据量及语言背景对韵律学习的影响提供了实证基础，推动了语音表示学习向更全面的语言学知识建模迈进。

实际应用

在实际应用中，BU语料库支撑的韵律评估基准对提升语音技术的自然度与可懂度具有直接意义。例如，在语音合成系统中，准确的韵律边界预测能生成更符合人类听觉习惯的语音流，避免生硬的停顿或错误的断词。同时，在自动语音识别领域，融入韵律知识有助于改善在嘈杂环境或快速语流中的词边界检测，提升识别精度。此外，该基准还可用于评估跨语言语音模型的适应性，为开发多语言语音处理工具提供韵律层面的优化方向，最终服务于智能助手、有声读物生成及语言教育等现实场景。

数据集最近研究