Parallel Audiobook Corpus

github2019-12-22 更新2024-05-31 收录

下载链接：

https://github.com/msamribeiro/parallel-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Parallel Audiobook Corpus（版本1.0）是一个包含有声书平行阅读的语料库。该语料库包含大约121小时的数据，跨越4本书和59位演讲者。数据提供两种格式：章节数据包含按章节级别的有声书录音，每个章节级别的波形都附有文本及其相应的单词级对齐。分割数据提供了更传统的语料库格式，章节级别的对齐被分割成话语，波形按演讲者组织。

The Parallel Audiobook Corpus (Version 1.0) is a corpus containing parallel readings of audiobooks. This corpus includes approximately 121 hours of data, spanning 4 books and 59 speakers. The data is provided in two formats: chapter data includes audiobook recordings at the chapter level, with each chapter-level waveform accompanied by text and its corresponding word-level alignment. The segmented data offers a more traditional corpus format, where chapter-level alignments are divided into utterances, and waveforms are organized by speaker.

创建时间：

2018-11-05

原始信息汇总

数据集概述

名称: Parallel Audiobook Corpus (版本 1.0)

描述: 该数据集包含约121小时的数据，涵盖4本书和59位朗读者。数据集提供两种格式：

章节数据：包含按章节划分的有声书录音，每个章节级别的波形文件附带文本及其相应的词级对齐信息。
分割数据：传统格式，将章节级对齐分割成话语，波形文件按朗读者组织。每本书中，话语标识符在不同朗读者间保持一致，便于查找平行数据。

数据来源:

音频数据：来自LibriVox
文本数据：来自Project Gutenberg

许可: 数据集根据Creative Commons Attribution 4.0 International License (CC BY 4.0)授权。音频和文本数据的具体许可请参考其来源的条款。

引用格式:

@misc{pacorpus18, author = {Ribeiro, Manuel Sam}, title = {Parallel Audiobook Corpus}, publisher = {University of Edinburgh}, howpublished = {[dataset]. University of Edinburgh. School of Informatics. url{https://doi.org/10.7488/ds/2468}}, doi = {10.7488/ds/2468}, url = {https://datashare.is.ed.ac.uk/handle/10283/3217}, year = {2018} }

下载链接: http://dx.doi.org/10.7488/ds/2468

搜集汇总

数据集介绍

构建方式

Parallel Audiobook Corpus（版本1.0）是一个包含平行朗读的有声书数据集。该数据集的构建汇集了来自4本书籍、59位朗读者的大约121小时数据。数据来源于LibriVox的有声书和Project Gutenberg的文本，经过精心挑选和整理，形成了包含章节级别和语句级别的波形数据及其对应的文本和单词级对齐信息的结构化数据集。

特点

该数据集的特点在于其平行读本的独特构建方式，提供了章节级别的完整有声书录音及其文本和单词级对齐，以及更传统的按说话人分段的语句级别波形数据。这种结构便于研究者在不同的粒度级别上进行分析，同时，数据集内部的一致性标识符使得查找平行数据变得更为便捷。

使用方法

使用Parallel Audiobook Corpus数据集时，研究者可以根据需求选择章节级别或语句级别的数据格式。数据集以Creative Commons Attribution 4.0国际许可证授权，用户需遵循相应的使用条款。下载和使用数据前，建议仔细阅读数据的使用协议和来源条款，以确保合规使用。数据可通过指定页面下载，并按照数据集的引用格式进行引用，以尊重原始创作者的知识产权。

背景与挑战

背景概述

Parallel Audiobook Corpus（版本1.0）是一个包含平行朗读的有声书数据集，由4本书籍和59位朗读者录制的约121小时的数据组成。该数据集由曼努埃尔·山姆·里贝罗（Manuel Sam Ribeiro）创建于2018年，隶属于爱丁堡大学信息学院。该数据集的核心研究问题是提高语音识别和文本对齐的准确性，其对自然语言处理、语音识别和机器翻译领域产生了重要影响。

当前挑战

该数据集在构建和应用过程中面临的挑战包括：确保不同书籍中章节级别的波形与文本及其相应单词级别对齐的准确性；在传统格式中，将章节级别的对齐分割为发音单元，并按说话者组织波形；同时，还需遵守底层音频和文本数据源的具体条款，正确处理版权和授权问题。

常用场景

经典使用场景

在语音识别与处理研究领域，Parallel Audiobook Corpus 数据集被广泛用于构建与评估语音识别模型。其包含的平行读物录音，为研究者提供了在相同文本条件下不同说话人语音的比较分析，这在训练声学模型和语言模型中尤为宝贵。

实际应用

在实际应用中，Parallel Audiobook Corpus 可用于提升语音助手、自动字幕生成等语音技术的性能。其高质量的数据为这些技术提供了可靠的训练和测试基础，进而优化用户体验。

衍生相关工作

Parallel Audiobook Corpus 衍生了众多相关工作，包括但不限于语音识别算法的改进、跨语言语音识别模型的开发，以及语音数据处理技术的创新，为语音信息处理领域的研究提供了丰富的素材和基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集