EuroSpeech

Hugging Face2025-05-16 更新2025-05-17 收录

下载链接：

https://huggingface.co/datasets/disco-eth/EuroSpeech

下载链接

链接失效反馈

官方服务：

资源简介：

EuroSpeech是一个包含18种欧洲语言的高质量多语言语音语料库，包含对齐的议会演讲。该数据集包含音频、键、国家、语言、视频ID、转录ID、开始和结束时间、持续时间、ASR和人工转录以及CER和WER分数等特征。数据集分为训练、验证和测试的不同部分，具有不同的示例数量和文件大小。README还提供了有关数据集中包含的语言、它们的对齐小时数以及每个语言的CER分数分布的详细信息。基于这些信息，该数据集适用于语音识别和处理的研究和开发，特别是各种欧洲语言的议会程序。

创建时间：

2025-05-11

原始信息汇总

EuroSpeech 数据集概述

数据集基本信息

数据集名称: EuroSpeech
数据来源: 欧洲多国议会演讲录音
语言: 多语言（根据国家不同）
采样率: 16000 Hz

数据集结构

数据集按国家/地区分为多个子集，每个子集包含以下特征和分割：

通用特征

audio: 音频数据（采样率16kHz）
key: 唯一标识符
country: 国家/地区
language: 语言
video_id: 视频ID
transcript_id: 转录文本ID
start_seconds: 起始时间（秒）
end_seconds: 结束时间（秒）
duration_seconds: 持续时间（秒）
asr_transcript: ASR转录文本
human_transcript: 人工转录文本
cer: 字符错误率
wer: 词错误率
original_transcript_start_idx: 原始转录起始索引
original_transcript_end_idx: 原始转录结束索引

子集详情

波斯尼亚和黑塞哥维那 (bosnia-herzegovina)

训练集: 162,735 样本 (77.99 GB)
验证集: 1,909 样本 (919.34 MB)
测试集: 1,961 样本 (943.17 MB)
总大小: 79.86 GB

保加利亚 (bulgaria)

训练集: 513,483 样本 (248.07 GB)
验证集: 7,294 样本 (3.51 GB)
测试集: 6,892 样本 (3.34 GB)
总大小: 254.92 GB

克罗地亚 (croatia)

测试集: 10,990 样本 (5.26 GB)
验证集: 10,985 样本 (5.27 GB)
总大小: 10.53 GB

爱沙尼亚 (estonia)

训练集: 208,412 样本 (101.84 GB)
测试集: 3,554 样本 (1.71 GB)
验证集: 3,175 样本 (1.53 GB)
总大小: 105.09 GB

法国 (france)

训练集: 19,296 样本 (9.23 GB)
测试集: 744 样本 (352.15 MB)
总大小: 9.58 GB

德国 (germany)

训练集: 502,515 样本 (241.76 GB)
测试集: 4,872 样本 (2.36 GB)
验证集: 6,193 样本 (2.98 GB)
总大小: 247.09 GB

希腊 (greece)

训练集: 562,010 样本 (263.06 GB)
验证集: 9,262 样本 (4.45 GB)
测试集: 6,730 样本 (3.22 GB)
总大小: 270.72 GB

冰岛 (iceland)

训练集: 149,533 样本 (71.47 GB)
验证集: 2,732 样本 (1.31 GB)
测试集: 3,159 样本 (1.51 GB)
总大小: 74.29 GB

意大利 (italy)

训练集: 658,661 样本 (313.44 GB)
验证集: 7,429 样本 (3.57 GB)
总大小: 317.01 GB

拉脱维亚 (latvia)

训练集: 285,083 样本 (137.78 GB)
验证集: 3,188 样本 (1.51 GB)
测试集: 3,343 样本 (1.59 GB)
总大小: 140.88 GB

立陶宛 (lithuania)

训练集: 631,550 样本 (301.68 GB)
验证集: 6,434 样本 (3.08 GB)
测试集: 7,319 样本 (3.50 GB)
总大小: 308.27 GB

马耳他 (malta)

训练集: 147,337 样本 (69.84 GB)
验证集: 1,240 样本 (588.72 MB)
测试集: 2,260 样本 (1.07 GB)
总大小: 71.49 GB

挪威 (norway)

训练集: 906,667 样本 (440.25 GB)
验证集: 10,038 样本 (4.86 GB)
测试集: 10,042 样本 (4.86 GB)
总大小: 449.97 GB

葡萄牙 (portugal)

训练集: 780,469 样本 (368.10 GB)
验证集: 7,951 样本 (3.74 GB)
测试集: 7,501 样本 (3.55 GB)
总大小: 375.39 GB

塞尔维亚 (serbia)

训练集: 432,659 样本 (207.94 GB)
验证集: 4,853 样本 (2.37 GB)
测试集: 4,961 样本 (2.37 GB)
总大小: 212.67 GB

斯洛伐克 (slovakia)

验证集: 6,607 样本 (3.18 GB)
测试集: 5,104 样本 (2.47 GB)
总大小: 5.65 GB

斯洛文尼亚 (slovenia)

训练集: 270,428 样本 (129.44 GB)
验证集: 3,721 样本 (1.79 GB)
测试集: 3,585 样本 (1.71 GB)
总大小: 132.94 GB

瑞典 (sweden)

训练集: 543,459 样本 (260.18 GB)
验证集: 6,305 样本 (3.02 GB)
测试集: 6,138 样本 (2.97 GB)
总大小: 266.16 GB

英国 (uk)

训练集: 40,791 样本 (19.59 GB)
总大小: 19.59 GB

乌克兰 (ukraine)

训练集: 277,032 样本 (269.12 GB)
测试集: 3,239 样本 (3.15 GB)
验证集: 3,064 样本 (2.98 GB)
总大小: 275.24 GB

搜集汇总

数据集介绍

构建方式

EuroSpeech数据集通过系统性地收集欧洲多国语音数据构建而成，涵盖波斯尼亚、保加利亚、克罗地亚等18个国家。数据采集过程采用统一标准，音频采样率固定为16kHz，每条数据包含原始视频片段的时间戳、人工转录文本及自动语音识别（ASR）生成的转录文本。数据集按国家划分独立配置，每个配置包含训练集、验证集和测试集，确保地域语言特性的独立评估。

使用方法

使用者可通过HuggingFace平台按国家配置加载数据，每个子集以标准结构化格式存储。典型应用包括：调用音频特征进行端到端语音模型训练，对比人工与ASR转录文本优化识别算法，或利用地域标签开展方言分类研究。数据加载接口支持灵活切片操作，可提取特定时间段的语音片段进行细粒度分析。

背景与挑战

背景概述

EuroSpeech数据集是一个涵盖欧洲多国语言的语音识别数据集，旨在为语音处理和自然语言处理领域提供丰富的多语言资源。该数据集由多个欧洲国家的语音数据组成，包括波黑、保加利亚、克罗地亚、爱沙尼亚、法国、德国、希腊、冰岛、意大利、拉脱维亚、立陶宛、马耳他、挪威、葡萄牙、塞尔维亚、斯洛伐克、斯洛文尼亚、瑞典、英国和乌克兰等。数据集的设计初衷是为了解决多语言语音识别中的挑战，尤其是针对不同语言和方言的语音特征差异。EuroSpeech的创建为跨语言语音识别、语音合成以及机器翻译等研究提供了重要的数据支持，推动了多语言语音处理技术的发展。

当前挑战

EuroSpeech数据集面临的主要挑战包括多语言语音识别的复杂性和数据采集的多样性。首先，不同语言和方言之间的语音特征差异显著，这对模型的泛化能力提出了较高要求。其次，数据采集过程中需要处理不同国家的语音数据，涉及多种录音环境和设备，增加了数据一致性的难度。此外，数据标注的准确性也是一个关键挑战，尤其是在处理低资源语言时，人工转录的准确性和一致性难以保证。这些挑战使得构建一个高质量、多语言的语音识别数据集变得尤为复杂。

常用场景

经典使用场景

EuroSpeech数据集作为欧洲多国语音数据的集合，广泛应用于语音识别技术的开发与优化。其包含的多种语言和方言样本为研究者提供了丰富的语音特征分析素材，尤其在自动语音识别（ASR）系统的训练与测试中表现卓越。通过该数据集，研究者能够深入探索不同语言环境下的语音识别难点，提升模型的泛化能力。

解决学术问题

EuroSpeech数据集有效解决了跨语言语音识别中的关键学术问题，如语言多样性导致的模型性能下降、低资源语言的识别精度不足等。该数据集通过提供大量标注准确的语音样本，支持了端到端语音识别模型的开发，显著降低了词错误率（WER）和字符错误率（CER），推动了多语言语音处理技术的进步。

实际应用

在实际应用中，EuroSpeech数据集为智能语音助手、实时翻译系统和语音转写工具的开发提供了重要支持。其覆盖的欧洲多国语言场景使得相关技术能够更好地适应不同地区的用户需求，例如在跨国企业会议、多语言客服系统等场景中实现高效准确的语音交互。

数据集最近研究