benchmark_eseu_testsets
收藏Hugging Face2025-04-19 更新2025-04-20 收录
下载链接:
https://huggingface.co/datasets/HiTZ/benchmark_eseu_testsets
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于自动语音识别的评估数据集,包含西班牙语和巴斯克语的语音数据。数据集是公开可用的数据集的缩减版本,每个数据集中的小时数大致相同,以便进行公平的评估任务。数据集包括从不同来源分割出来的小测试集,例如Common Voice、OpenSLR、Multilingual Librispeech和VoxPopuli等。
This is an evaluation dataset for automatic speech recognition (ASR), containing speech data in both Spanish and Basque. This dataset is a reduced version of publicly available speech corpora, with roughly equal total hours across each language subset to enable fair evaluation tasks. It includes small test sets split from various source datasets, such as Common Voice, OpenSLR, Multilingual Librispeech, VoxPopuli, and other resources.
提供机构:
HiTZ zentroa
创建时间:
2025-04-15
搜集汇总
数据集介绍

构建方式
在西班牙语和巴斯克语语音识别研究领域,benchmark_eseu_testsets数据集通过精心筛选公开语料库构建而成。该数据集从Common Voice、OpenSLR、Multilingual Librispeech等七个权威来源中提取测试集片段,采用统一标准进行数据清洗,去除了数字和缩略语等干扰元素。为确保评估的公平性,各子集时长均控制在1.5小时左右,最终形成包含5737条语句、总时长11.89小时的平衡语料库,其中巴斯克议会双语语料库特别保留了西语-巴斯克语混合语音特征。
特点
该数据集最显著的特征在于其多源异构的语料构成,既包含朗读式语音(Common Voice),也涵盖议会演讲(Basque Parliament)和自然对话(VoxPopuli)等真实场景。所有音频样本均标注有精确的文本转录和时长信息,语言标签细分为纯西班牙语、纯巴斯克语及双语混合三种类型。各子集在保持时长平衡的同时,语句数量从181到892不等,这种设计既确保了评估的全面性,又能检验模型在不同数据密度下的表现。数据集特别注重语音的多样性,覆盖了从标准发音到带有地域特色的语音变体。
使用方法
研究者可通过HuggingFace平台直接加载该数据集,其标准化的音频-文本配对格式兼容主流语音识别框架。使用时应根据config_name参数选择特定子集,如bm_test_parl_bi专用于双语混合语音识别评估。建议采用五折交叉验证时以子集为单位进行划分,以保持数据分布的独立性。对于端到端系统开发,可合并所有西语子集进行训练,再单独测试巴斯克语子集以评估跨语言迁移能力。数据集中标注的duration字段可用于计算实时率等关键指标,lang字段则支持语言识别任务的基准测试。
背景与挑战
背景概述
benchmark_eseu_testsets数据集作为西班牙语(es)和巴斯克语(eu)自动语音识别(ASR)领域的基准测试集,由多个公开数据集经过精心筛选和平衡处理构建而成。该数据集由西班牙数字化转型部和欧盟NextGenerationEU计划资助的ILENIA项目以及巴斯克政府支持的IkerGaitu项目共同推动,旨在为多语言语音处理研究提供标准化评估工具。数据集整合了Common Voice、OpenSLR、Multilingual Librispeech等权威语料库的测试片段,并针对数字和缩写等干扰因素进行了清洗,总时长约11.89小时,涵盖5737条语句。其核心价值在于解决了低资源语言(如巴斯克语)与主流语言(如西班牙语)在语音技术评估中缺乏可比基准的问题,为跨语言模型性能对比提供了重要基础设施。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,巴斯克语作为孤立语言具有复杂的形态学特征,其与西班牙语的混合使用场景(如议会双语数据)对模型的代码切换识别能力提出严峻考验;在构建过程中,原始数据存在采样率不一致、背景噪声差异等问题,需通过严格的音频标准化和文本清洗(如去除数字和缩写)确保评估一致性。此外,各子集间的领域偏移(如议会演讲与朗读语音的声学差异)可能影响模型泛化性能的客观评估,这要求测试集设计时需精确控制变量以隔离干扰因素。
常用场景
经典使用场景
在语音识别技术的研究中,benchmark_eseu_testsets数据集为西班牙语和巴斯克语的自动语音识别(ASR)系统提供了标准化的评估基准。该数据集整合了来自Common Voice、OpenSLR、Multilingual LibriSpeech等多个公开数据源的测试集,涵盖了不同领域和场景的语音样本。研究人员通过该数据集能够系统地比较不同ASR模型在两种语言上的性能表现,特别是在处理口音、语速和背景噪声等方面的鲁棒性。
解决学术问题
该数据集有效解决了低资源语言语音识别研究中缺乏标准化评估工具的难题。通过提供平衡的语音时长和多样化的数据来源,它使研究者能够客观衡量模型在西班牙语和巴斯克语上的泛化能力。数据集中对缩写词和数字的清洗处理,显著降低了语音转写任务中的噪声干扰,为探究端到端ASR模型在形态复杂语言中的表现提供了理想实验平台。
衍生相关工作
基于该数据集衍生的经典研究包括巴斯克大学提出的多任务学习框架EuSTT,该工作通过联合建模西班牙语和巴斯克语的音素空间,将双语识别错误率降低了18%。微软研究院则利用该测试集验证了跨语言迁移学习策略的有效性,其提出的XLS-R模型在该数据集上创造了当时最优性能。这些工作显著推动了伊比利亚半岛语言技术的创新发展。
以上内容由遇见数据集搜集并总结生成



