Europarl-ASR

github2024-03-30 更新2024-05-31 收录

下载链接：

https://github.com/mllpresearch/Europarl-ASR

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含1300小时英语语音和文本的语料库，用于流式自动语音识别训练和基准测试，以及语音数据过滤和语音数据逐字化。

A corpus containing 1300 hours of English speech and text, designed for streaming automatic speech recognition training and benchmarking, as well as speech data filtering and verbatim transcription.

创建时间：

2024-03-28

原始信息汇总

数据集概述

数据集名称

名称: Europarl-ASR
版本: v1.0
发布日期: 2021-04-02

数据集描述

描述: 包含1300小时的英语语音和文本语料库，用于流式自动语音识别（ASR）训练和基准测试，语音数据过滤和语音数据逐字化。
时间覆盖: 1996至2020年
空间覆盖: 欧洲议会

数据集内容

语音数据:
- 1300小时英语语言标注语音数据
- 3套完整的时间戳转录：官方非逐字转录，自动噪声过滤转录和自动逐字化转录
- 18小时语音数据，包含手动修订的逐字转录和官方非逐字转录，分为2个独立的验证-评估分区，用于2个现实的ASR任务（有或无先前的发言人知识）
文本数据:
- 7000万英语语言文本数据令牌
预训练语言模型:
- Europarl-ASR英语语言n-gram语言模型和词汇表

数据集组织

总大小: 18 GiB
组织结构: 分为"train"（训练数据），"dev"（验证数据）和"test"（评估数据）三个主要目录。每个目录包含"original_audio"和"text"子目录，分别包含语音数据和文本数据。

数据集下载

下载链接: https://www.mllp.upv.es/europarl-asr/Europarl-ASR_v1.0.tar.gz
大小: 18 GiB
SHA-256校验和: 4d360170ef8f1d1ece55566eda4211274b27328427a3443061f43d80d3346e74

许可证

许可证: CC BY 4.0

联系信息

联系人: Gonçal V. Garcés Díaz-Munío (gogardia@vrain.upv.es), Joan Albert Silvestre-Cerdà (jsilvestre@vrain.upv.es)
机构: Universitat Politècnica de València

搜集汇总

数据集介绍

构建方式

Europarl-ASR数据集的构建基于欧洲议会1996年至2020年期间的英语辩论录音、转录和翻译数据。该数据集涵盖了1300小时的英语语音数据，并包含三种完整的定时转录集：官方非逐字转录、自动噪声过滤转录和自动逐字化转录。此外，数据集还通过整合DCEP数字语料库的英语文本，进一步扩充了文本数据量，使其达到1.7亿个词元。数据集的构建过程严格遵循了欧洲议会的法律声明和使用条件，确保了数据的合法性和可靠性。

特点

Europarl-ASR数据集的特点在于其丰富的语音和文本资源。语音数据部分包含1300小时的英语语音，涵盖了欧洲议会辩论的广泛内容，并提供了多种转录版本，便于不同场景下的自动语音识别（ASR）任务。文本数据部分则包含了7000万个词元的英语文本，并提供了预训练的n-gram语言模型和词汇表，为语言建模提供了有力支持。此外，数据集还特别设计了验证和评估分区，支持两种不同的ASR任务，分别针对已知和未知说话者的场景，增强了数据集的实用性和灵活性。

使用方法

Europarl-ASR数据集的使用方法主要围绕自动语音识别（ASR）任务的训练和评估展开。用户可以通过下载数据集的主文件包，获取包含语音和文本数据的完整语料库。数据集的结构清晰，分为训练、验证和测试三个主要目录，每个目录下包含语音和文本数据的子目录，便于用户按需使用。此外，数据集还提供了预训练的语言模型和词汇表，用户可以直接用于语言建模任务。对于需要进一步扩展文本数据的用户，数据集还提供了获取DCEP数字语料库的工具，便于用户根据需求扩充文本资源。

背景与挑战

背景概述

Europarl-ASR数据集由西班牙瓦伦西亚理工大学（Universitat Politècnica de València）的机器学习与语言处理研究组（MLLP）于2021年发布，旨在为流式自动语音识别（ASR）训练与基准测试提供支持。该数据集涵盖了1996年至2020年欧洲议会的英语辩论录音与文本，包含1300小时的语音数据及7000万词的文本数据。其核心研究问题在于如何通过大规模议会辩论语料库提升ASR系统的性能，特别是在语音数据过滤与逐字转录方面的应用。Europarl-ASR的发布为语音识别领域提供了重要的资源，推动了流式ASR技术的发展，并在学术界与工业界产生了广泛影响。

当前挑战

Europarl-ASR数据集在构建与应用中面临多重挑战。首先，语音数据的多样性与复杂性对ASR系统的鲁棒性提出了高要求，特别是在处理议会辩论中的背景噪音、多说话者重叠及不同口音时。其次，逐字转录的准确性依赖于高质量的语音对齐与文本处理，而自动化的过滤与转录技术在实际应用中仍存在误差。此外，数据集的构建过程中需处理大量异构数据，包括音频、官方转录文本及翻译文本，这对数据清洗与整合提出了技术挑战。最后，如何在流式ASR任务中有效利用该数据集，仍需进一步探索与优化。

常用场景

经典使用场景

Europarl-ASR数据集广泛应用于自动语音识别（ASR）领域，特别是在流式ASR的训练与基准测试中。其包含的1300小时英语议会辩论语音数据，为研究者提供了丰富的语音和文本资源，用于开发高效的语音识别模型。此外，该数据集还支持语音数据过滤和逐字转录的研究，为ASR系统的优化提供了重要参考。

解决学术问题

Europarl-ASR数据集解决了自动语音识别领域中的多个关键问题，尤其是在处理议会辩论这类复杂语音场景时。通过提供多种转录版本（如官方非逐字转录、自动过滤转录和自动逐字转录），该数据集帮助研究者更好地理解语音识别中的噪声过滤和逐字转录技术。此外，其包含的预训练语言模型和词汇表，为语言模型的优化提供了重要支持。

衍生相关工作

Europarl-ASR数据集衍生了许多经典的研究工作，特别是在流式ASR和语音数据过滤领域。基于该数据集，研究者开发了多种高效的语音识别模型，并提出了新的噪声过滤和逐字转录算法。此外，该数据集还被用于语言模型的优化研究，推动了自动语音识别技术的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集