LibriSpeech增强版

Name: LibriSpeech增强版
Creator: 法国格勒诺布尔-阿尔卑斯大学
Published: 2018-02-09 14:29:43
License: 暂无描述

arXiv2018-02-09 更新2024-06-21 收录

下载链接：

https://persyval-platform.univ-grenoble-alpes.fr/DS91/

下载链接

链接失效反馈

官方服务：

资源简介：

LibriSpeech增强版是由法国格勒诺布尔-阿尔卑斯大学开发的，旨在为直接语音翻译评估提供一个多模态语料库。该数据集包含236小时的英语语音与法语翻译的平行数据，源自LibriVox项目的读有声书，并经过精细分割和校准。数据集的创建过程涉及收集对应英语有声书的法语电子书，通过自动和半自动方法进行文本对齐和语音信号重新对齐。该数据集主要应用于直接语音翻译领域，旨在解决语音到文本翻译中的对齐问题，支持端到端语音翻译模型的训练和评估。

Enhanced LibriSpeech, developed by Université Grenoble Alpes in France, is a multimodal corpus designed for direct speech translation evaluation. It contains 236 hours of parallel data pairing English speech with its French translations, sourced from audiobooks in the LibriVox project and subjected to fine-grained segmentation and calibration. The dataset construction process involves collecting French e-books corresponding to the English audiobooks, and performing text alignment and speech signal realignment via automatic and semi-automatic methods. Primarily applied in the field of direct speech translation, this dataset aims to address alignment issues in speech-to-text translation, and supports the training and evaluation of end-to-end speech translation models.

提供机构：

法国格勒诺布尔-阿尔卑斯大学

创建时间：

2018-02-09

搜集汇总

数据集介绍

构建方式

LibriSpeech增强版数据集的构建基于现有的LibriSpeech语料库，该语料库包含约1000小时的英语语音数据及其对应的文本转录。研究团队通过收集与LibriSpeech中英语有声书相对应的法语电子书，并使用自动化的方法将这些法语文本与英语语音进行句子级别的对齐。具体步骤包括：收集法语电子书、提取章节、进行双语文本对齐，以及将语音信号与对齐后的文本重新对齐。最终，该数据集生成了236小时的英语语音与法语文本对齐的平行数据。

特点

LibriSpeech增强版数据集的主要特点在于其大规模的平行语音与文本数据，适用于直接语音翻译（Direct Speech Translation）的研究与评估。该数据集不仅提供了高质量的语音与文本对齐，还包含了多种文学体裁的文本，如小说、诗歌、宗教文本等。此外，数据集中的文本多为世界经典文学作品，具有较高的文化与语言研究价值。

使用方法

LibriSpeech增强版数据集可用于训练和评估直接语音翻译系统，特别是端到端（End-to-End）的语音翻译模型。研究者可以通过该数据集进行跨语言的语音识别与翻译实验，探索不同语言间的语音与文本对齐机制。此外，该数据集还可用于多模态学习、语音合成以及语言学研究等领域。数据集的详细使用方法和数据分割信息可在其官方网站上获取。

背景与挑战

背景概述

LibriSpeech增强版数据集由LIG、UGA、G-INP、CNRS、INRIA和LIDILEM等机构的研究人员于2018年创建，旨在填补直接语音翻译领域中缺乏大规模平行语料库的空白。该数据集基于LibriSpeech语料库，通过将英语有声读物与对应的法语电子书进行句子级别的对齐，生成了236小时的平行数据。这一创新不仅为自动语音识别（ASR）提供了丰富的资源，还为直接语音翻译（SLT）研究开辟了新的可能性，特别是在端到端语音翻译模型的发展中，其影响力不可忽视。

当前挑战

LibriSpeech增强版数据集在构建过程中面临多项挑战。首先，收集与LibriSpeech中英语有声读物相对应的法语电子书是一项复杂任务，涉及从多个公共领域资源中手动搜索和匹配。其次，句子级别的对齐需要高度精确的文本处理技术，如使用hunAlign工具进行双语文本对齐，并结合mweralign和gentle工具进行语音信号的重新对齐。此外，数据集中的古文翻译和低频词汇对对齐质量提出了更高的要求，需要进一步优化对齐算法和词典资源。这些挑战不仅影响了数据集的构建效率，也对其在实际应用中的表现提出了考验。

常用场景

经典使用场景

LibriSpeech增强版数据集的经典使用场景主要集中在直接语音翻译（Direct Speech Translation）领域。该数据集通过将LibriSpeech中的英语语音与对应的法语翻译进行对齐，为研究人员提供了一个大规模的多模态语料库。这一数据集特别适用于训练和评估端到端语音翻译模型，这些模型能够直接从原始语音信号生成目标语言的文本，而无需中间的源语言转录。

衍生相关工作

基于LibriSpeech增强版数据集，研究人员已经开展了一系列相关工作。例如，Bérard等人（2018）在ICASSP 2018会议上展示了使用该数据集训练的端到端语音翻译模型，这些模型在直接语音翻译任务中表现出色。此外，该数据集还激发了其他语言（如德语、西班牙语等）的扩展研究，以及不同说话风格和当代文本的语料库扩展工作。这些衍生研究进一步推动了语音翻译技术的发展和应用。

数据集最近研究