Translation-Augmented-LibriSpeech-Corpus

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/alicank/Translation-Augmented-LibriSpeech-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个大规模（超过200小时）的公开可用音频书籍语料库，是LibriSpeech ASR Corpus的增强版本，包含了英语语音与法语文本的自动对齐。数据集提供约236小时的语音与翻译文本的对齐。

This is a large-scale (over 200 hours) publicly available audiobook corpus, an enhanced version of the LibriSpeech ASR Corpus, which includes automatic alignment of English speech with French text. The dataset provides approximately 236 hours of aligned speech and translated text.

创建时间：

2017-07-11

原始信息汇总

数据集概述

名称: LIBRI-TRANS: Translation-Augmented-LibriSpeech-Corpus

描述: 这是一个大规模（超过200小时）的公开可用有声读物语料库，是对LibriSpeech ASR语料库的增强版本。该数据集包含英语语音与法语文本的自动对齐，提供约236小时的语音与翻译文本对齐的数据。

数据来源: 语音录音和源文本来自Gutenberg项目，由志愿者朗读的公共领域书籍。

数据增强: 自动将法语电子书与LibriSpeech中的英语语音对齐。

数据集大小:

章节数: 1408
书籍数: 247
总时长: ~236小时
总段数: 131395

许可证: 该数据集根据Creative Commons Attribution 4.0 License授权。

数据集链接

100小时子集详情

目的: 专门设计用于直接语音翻译的训练和评估。

提取依据: 根据跨语言对齐分数提取最佳的100小时数据。

数据组成:

训练集: 47271个段，100小时
开发集: 1071个段，2小时
测试集: 2048个段，3小时44分钟

数据内容: 每个语音段提供以下四元组信息：英语语音信号、英语转录、法语文本翻译1（来自电子书对齐）、法语文本翻译2（来自英语转录的机器翻译）。

其他数据集资源

数据库: 描述数据集的数据库（sqlite3）
对齐文件: 所有中间处理文件，包括英语和法语原始电子书
音频文件: 所有语音段，按书籍和章节组织
界面: 用于对齐可视化的静态HTML文件

数据集结构

音频文件: 重新分段的音频文件，每个书籍ID对应一个文件夹
HTML对齐可视化界面: 文本对齐的可视化，可同时听取语音
对齐文件夹: 包含所有处理步骤的文件和元数据

数据库结构

对齐表: 包含转录、文本对齐和音频文件名
元数据表: 包含LibriSpeech项目中的书籍信息

使用脚本

提供了一个脚本TA-LibriSpeech.py，用于从数据库中提取训练、开发和测试数据到输出文件夹。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于LibriSpeech ASR语料库，通过自动对齐法语文本与英语语音，形成了一个包含约236小时语音与翻译对齐的增强语料库。原始语音和文本来源于Gutenberg项目，通过收集公开领域的法语电子书并提取其中的独立章节，与LibriSpeech语料库中的英语语音进行对齐。此过程确保了每个语音段落与其对应的法语翻译文本精确匹配，从而构建了一个多模态的语音翻译评估语料库。

使用方法

使用该数据集时，用户可以下载包含音频文件和文本对齐的压缩包，通过提供的SQLite数据库进行数据查询和提取。数据集还附带了一个Python脚本，用于从数据库中提取训练、开发和测试数据，并支持根据不同的评分标准对数据进行排序。此外，数据集提供了一个HTML可视化界面，允许用户在查看文本对齐的同时播放相应的语音段落，从而进行更直观的分析和验证。

背景与挑战

背景概述

Translation-Augmented-LibriSpeech-Corpus（LIBRI-TRANS）是一个大规模的公开可用音频书籍语料库，其创建时间可追溯至2018年，由Ali Can Kocabiyikoglu、Laurent Besacier和Olivier Kraif等研究人员主导。该数据集的核心研究问题在于通过自动对齐技术，将LibriSpeech ASR语料库中的英语语音与法语文本进行匹配，从而提供一个包含约236小时语音与翻译文本对齐的数据集。这一研究不仅丰富了多语言语音翻译的资源，还为直接语音翻译领域的训练和评估提供了宝贵的数据支持。

当前挑战

Translation-Augmented-LibriSpeech-Corpus在构建过程中面临多项挑战。首先，自动对齐不同语言的文本与语音是一项复杂任务，涉及精确的语音识别和文本翻译技术。其次，数据集的构建需要处理大量的音频和文本数据，确保对齐的准确性和数据的质量。此外，为了提供高质量的训练和评估数据，研究人员还需设计并实现有效的数据筛选和排序机制，以确保数据集在直接语音翻译实验中的适用性和可靠性。

常用场景

经典使用场景

Translation-Augmented-LibriSpeech-Corpus（LIBRI-TRANS）数据集的经典使用场景主要集中在跨语言语音翻译领域。该数据集通过将英语语音与法语文本进行自动对齐，为研究人员提供了一个大规模的、公开可用的语音翻译训练和评估资源。特别地，100小时子集被设计用于直接语音翻译的训练和评估，其包含了高质量的语音段落及其对应的法语翻译，为开发和测试端到端语音翻译系统提供了理想的数据基础。

解决学术问题

该数据集解决了跨语言语音翻译中的关键学术问题，即如何有效地将一种语言的语音数据与另一种语言的文本数据进行对齐。通过提供大规模的、对齐良好的语音和文本数据，LIBRI-TRANS数据集显著推动了语音翻译技术的发展，特别是在端到端语音翻译模型的训练和评估方面。这不仅提升了翻译的准确性，还为多语言语音处理技术的研究提供了宝贵的资源。

实际应用

在实际应用中，Translation-Augmented-LibriSpeech-Corpus数据集被广泛用于开发和优化语音翻译系统，特别是在需要实时翻译的场景中，如国际会议、跨国商务交流和多语言教育等。此外，该数据集还可用于语音识别和文本翻译的联合训练，从而提高整体系统的性能。通过提供高质量的语音和文本对齐数据，该数据集为实现高效、准确的跨语言沟通提供了技术支持。

数据集最近研究