disco-eth/EuroSpeech-24kHz
收藏Hugging Face2026-05-04 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/disco-eth/EuroSpeech-24kHz
下载链接
链接失效反馈官方服务:
资源简介:
EuroSpeech是一个大规模多语言语音语料库,包含22种欧洲语言的高质量对齐议会语音数据。该数据集通过处理议会会议记录构建,使用了鲁棒的对齐流程来处理不同的音频格式和非逐字转录。数据集包含约78,100小时的对齐语音文本数据,并提供了不同质量等级的子集(CER < 30%、< 20%、< 10%)。主要子集(CER < 20%)通过Hugging Face Datasets接口直接提供,适用于自动语音识别(ASR)、文本到语音(TTS)系统、多语言语音研究、低资源语言语音技术开发和跨语言迁移学习等用途。
EuroSpeech is a large-scale multilingual speech corpus containing high-quality aligned parliamentary speech across 22 European languages. The dataset was constructed by processing parliamentary proceedings using a robust alignment pipeline that handles diverse audio formats and non-verbatim transcripts. It includes approximately 78,100 hours of initially aligned speech-text data, with quality-filtered subsets (CER < 30%, < 20%, < 10%). The primary subset (CER < 20%) is provided directly through the Hugging Face Datasets interface for all languages, intended for automatic speech recognition (ASR), text-to-speech (TTS) systems, multilingual speech research, low-resource language speech technology development, and cross-lingual transfer learning in speech models.
提供机构:
disco-eth
搜集汇总
数据集介绍

构建方式
EuroSpeech-24kHz数据集的构建源于对22个欧洲国家议会发言的系统性采集与处理。研究团队首先通过人工与脚本结合的方式,从各议会网站获取音频、视频及抄本的元数据链接,并利用专用处理器实现异构格式文件的自动化下载。随后,依托一个鲁棒性卓越的对齐管道,将长录音通过语音活动检测分割为3至20秒的片段,借助ASR模型生成伪标签后,采用创新提出的两阶段动态对齐算法进行匹配:粗粒度阶段利用滑动窗口快速搜索转录文本,避开无关区域并锁定候选片段;细粒度阶段在候选位置附近局部优化起始点与窗口尺寸,以最小化字符错误率。最终基于CER阈值(<30%、<20%、<10%)进行质量过滤,形成多层级可靠子集。
使用方法
EuroSpeech-24kHz专为语音技术的多元研究而设计。用户可通过Hugging Face Datasets接口直接加载CER<20%的主子集,并根据应用需求选择其他质量层级(如CER<10%用于高精度调优,CER<30%用于数据增强)。数据集预定义了按语言分离的训练、开发与测试分割,便于快速开展实验。其典型用途涵盖自动语音识别系统的训练与评估、文本转语音建模、多语言语音研究、低资源语言技术开发以及跨语言迁移学习。使用时需注意,该语料反映正式的议会演讲风格,可能不适用于非正式或嘈杂场景;同时,不同语言数据量的差异可能影响多语言模型的性能均衡。
背景与挑战
背景概述
EuroSpeech-24kHz 数据集由 Samuel Pfisterer、Florian Grötschla 等研究者于 2024 年构建,源自瑞士苏黎世联邦理工学院分布式计算组。该数据集专注于多语言自动语音识别领域,通过系统性地处理 22 个欧洲国家的议会 proceedings,构建了约 78,100 小时的高质量对齐语音-文本语料库。其核心研究问题在于为低资源欧洲语言提供大规模、高质量的监督数据,从而弥合多语言语音技术发展的资源鸿沟。该数据集的发布对推动跨语言语音识别、低资源语言技术及语音-文本对齐算法研究具有显著影响力,尤其为克罗地亚语、丹麦语等 19 种语言提供了超过 1,000 小时的训练数据,有效缓解了非英语语言在语音研究中的数据稀缺困境。
当前挑战
该数据集所解决的领域问题在于应对多语言自动语音识别中数据标注成本高昂且资源分布不均的挑战,尤其是非正式议会 transcripts 与音频间存在的非逐字匹配难题。在构建过程中,研究人员面临多重挑战:其一,源数据需从 22 个不同议会网站手动搜集并自动化下载多样化的音频、视频和转录文件格式;其二,需设计一种鲁棒的两阶段动态对齐算法,以处理 ASR 伪标签与嘈杂、非逐字 transcripts 之间的极端不匹配,通过粗粒度滑窗扫描和细粒度局部搜索的级联策略实现高精度对齐;其三,需通过 CER 阈值过滤构建质量层级(如 CER<20% 时约 50,500 小时),在数据量与对齐质量间取得平衡,同时确保不同语言间的数据规模差异不会过度影响多语言模型的性能均衡性。
常用场景
经典使用场景
EuroSpeech-24kHz数据集凭借其覆盖22种欧洲语言、超过78000小时的高质量议会语音-文本对齐数据,成为多语言自动语音识别(ASR)模型训练与评估的核心资源。研究者可基于该数据集提供的不同CER质量层级(如CER低于20%的优质子集约50500小时),构建鲁棒的语音识别系统,尤其适用于需要处理多语言混合场景或跨语言迁移学习的任务。此外,该数据集的标准化训练/开发/测试集划分方式(按完整议会会话分配),确保了实验的公平性与可复现性。
解决学术问题
该数据集针对多语言ASR研究中低资源语言数据匮乏的长期难题,提供了19种语言超过1000小时的高质量对齐数据(CER<20%),显著推动了克罗地亚语、立陶宛语、冰岛语等弱势语言的语音技术研究。通过新颖的两阶段动态对齐算法,有效解决了非字面转录与音频的鲁棒匹配问题,为噪声环境下的大尺度语音-文本对齐研究树立了技术标杆。EuroSpeech的发布还促进了跨语言声学模型泛化能力、正式语体语音识别准确性以及议会语音数据标准化的学术探索。
实际应用
在实际部署中,EuroSpeech-24kHz数据集可直接用于开发多语言实时语音转写系统,服务于欧盟各机构或跨国组织的会议记录、同声传译辅助及政务数字化存档。其高质量对齐特性也支持文本到语音(TTS)技术,通过议会正式语体数据训练出清晰的合成语音,用于公共信息播报或语音助手。此外,该数据集有助于构建低资源语言的教育工具,例如语言学习应用中的语音评测模块,以及面向移民或外交场景的便携式翻译设备。
数据集最近研究
最新研究方向
EuroSpeech-24kHz作为大规模多语种议会语音语料库,涵盖了22种欧洲语言,总对齐时长超过78,000小时,为自动语音识别(ASR)和文本转语音(TTS)系统提供了高质量的训练资源。该数据集通过创新的两级动态对齐算法处理非逐字转录的议会记录,显著提升了对低资源语言(如克罗地亚语、爱沙尼亚语等)的覆盖能力。当前研究前沿聚焦于利用该语料库推动多语种跨语言迁移学习,尤其在降低字符错误率(CER)至20%以下的高质量子集上,探索基于弱监督训练的语音模型泛化性。该数据的发布呼应了欧洲多语言技术发展的热点需求,为弥合语言资源鸿沟、促进低资源地区的语音技术落地提供了关键支撑,预计将在智能政务、多语种人机交互及公共信息无障碍传播领域产生深远影响。
以上内容由遇见数据集搜集并总结生成



