voxlingua107_IberLang
收藏Hugging Face2025-10-29 更新2025-10-30 收录
下载链接:
https://huggingface.co/datasets/Ugiat/voxlingua107_IberLang
下载链接
链接失效反馈官方服务:
资源简介:
IberVoice数据集是一个精选和验证过的音频样本集合,包含西班牙语、加泰罗尼亚语、加利西亚语、巴斯克语和奥克语,旨在提升西班牙官方语言的口语识别系统。该数据集基于VoxLingua107多语种语料库,经过清洗和重新标注,以修正影响少数民族语言的系统性标签错误。
创建时间:
2025-10-22
原始信息汇总
VoxLingua107 IberLang 数据集概述
数据集简介
IberVoice 数据集是一个经过整理和验证的音频样本集合,包含西班牙语、加泰罗尼亚语、加利西亚语、巴斯克语和奥克西坦语的音频样本,旨在增强西班牙官方语言的口语语言识别系统。该数据集源自 VoxLingua107 多语言语料库,但经过清理和重新标注,以纠正影响少数民族语言的系统性标签错误。
数据集特点
- 任务类别:音频分类
- 语言识别:支持加泰罗尼亚语、西班牙语、巴斯克语、加利西亚语、奥克西坦语
- 数据特征:
- 音频
- ID
- 语言标签
数据统计
- 训练集样本数量:82,140
- 训练集大小:24,006,670,986 字节
- 下载大小:25,203,084,986 字节
语言覆盖情况
| 语言 | 代码 | 时长(小时) |
|---|---|---|
| 加泰罗尼亚语 | ca |
83 |
| 加利西亚语 | gl |
58 |
| 西班牙语 | es |
39 |
| 巴斯克语 | eu |
27 |
| 奥克西坦语 | oc |
13 |
数据修正过程
数据集通过两阶段精炼过程进行修正:
- 高置信度过滤:保留 Whisper Large 模型预测语言置信度高于 0.95 的音频片段
- 迭代重分类:使用微调的 Whisper Medium 模型进行语言识别,对置信度高于 0.8 的样本自动重新分配标签,低置信度案例进行人工验证
许可证
- 许可证类型:CC BY 4.0
- 原始数据集:VoxLingua107 by J. Valk and T. Alumae (2021)
- 修改说明:由 Ugiat Technologies 执行的数据集清理和语言重分类工作
搜集汇总
数据集介绍

构建方式
在语音识别研究领域,数据质量直接影响模型性能。IberVoice数据集源自VoxLingua107多语言语料库,通过两阶段精炼流程重构:首先采用Whisper Large模型筛选置信度高于0.95的语音片段确保语言纯度,继而通过微调后的Whisper Medium模型对剩余音频进行迭代重分类,高置信度样本自动修正标签,低置信度样本则经人工核验。对于奥克语这类数据量较少的语种,则由母语者逐条审校音频文件,最终形成覆盖五种伊比利亚语言的标准化语料库。
特点
该数据集显著提升了伊比利亚半岛语言的标注准确性,特别针对加泰罗尼亚语、加利西亚语、巴斯克语等少数语言存在的系统性标注错误进行了修正。其语言时长分布经过科学平衡,加泰罗尼亚语达83小时,加利西亚语58小时,西班牙语39小时,巴斯克语27小时,奥克语13小时,形成了具有代表性的语音样本集合。所有音频数据均配备标准化元数据,为多语言语音识别研究提供了可靠的基准资源。
使用方法
研究者可通过HuggingFace平台直接加载该数据集,其音频文件与语言标签的对应关系已通过严格验证。该数据集适用于语音分类任务的模型训练,特别是针对伊比利亚半岛语言的识别系统开发。使用时可调用标准数据加载接口获取音频波形与对应语言标签,支持端到端的语音识别模型训练流程。基于CC BY 4.0许可协议,该数据集允许研究者自由用于学术研究和商业项目,但需遵循原始数据集的引用规范。
背景与挑战
背景概述
语音识别技术在多语言环境下面临着对特定语种准确辨识的挑战,VoxLingua107_IberLang数据集由爱沙尼亚塔林理工大学的研究团队于2021年创建,后经Ugiat Technologies针对伊比利亚半岛语言进行专项优化。该数据集聚焦于西班牙境内五种官方语言的语音辨识研究,包括加泰罗尼亚语、加利西亚语、巴斯克语、西班牙语和奥克西坦语,通过系统化重构为多语言语音识别模型提供了关键训练资源,显著提升了针对区域性语言变体的识别精度。
当前挑战
在领域问题层面,原始VoxLingua107数据集因依赖YouTube元数据自动标注,导致少数语言样本存在系统性误标现象,特别是加泰罗尼亚语等语种常被错误归类为西班牙语。构建过程中面临双重挑战:首先需要采用Whisper大型模型进行高置信度筛选以保障语言纯度,继而通过迭代式重分类结合人工核验解决低置信度样本的标注难题,对于数据量稀少的奥克西坦语则需依赖母语者逐条审校以确保标注质量。
常用场景
经典使用场景
在语音技术研究领域,VoxLingua107_IberLang数据集主要应用于多语言环境下的口语语言识别任务。该数据集通过精心筛选的伊比利亚半岛语言音频样本,为构建高精度语言分类模型提供了标准化训练资源。研究人员常利用其平衡的语种分布和经过人工校验的标注质量,开发能够区分西班牙语、加泰罗尼亚语、加利西亚语、巴斯克语和奥克语的声学模型,有效解决了传统方法在相似语言变体识别中的性能瓶颈。
解决学术问题
该数据集显著改善了自动语音识别系统中对低资源语言的覆盖能力。通过采用Whisper模型驱动的双重校验机制,它修正了原始语料中因元数据错误导致的系统性标注偏差,特别是针对加泰罗尼亚语等易被误标为西班牙语的语种。这种数据净化方法为语言技术研究提供了可靠的实验基准,推动了多语言语音处理领域在数据质量控制方面的方法论创新。
衍生相关工作
该数据集的衍生研究主要体现在多模态语言技术架构的演进中。以Whisper系列模型为代表的端到端语音识别系统,通过在该数据集上的微调实验,显著提升了对于伊比利亚半岛语言的鉴别能力。后续研究进一步探索了跨语言表征学习框架,将经过校验的语音样本作为锚点,构建了适用于罗曼语族语言识别的统一特征空间,推动了区域化语音技术标准的确立。
以上内容由遇见数据集搜集并总结生成



