evals-speech-recognition-cy-en-2511
收藏Hugging Face2025-11-12 更新2025-11-13 收录
下载链接:
https://huggingface.co/datasets/DewiBrynJones/evals-speech-recognition-cy-en-2511
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是用于语音识别的,包含了威尔士语和英语的句子、口音、语言、ID以及预测结果。数据集被分为四个配置,每个配置都有不同的训练和测试文件,文件大小和示例数量各不相同。
创建时间:
2025-11-11
原始信息汇总
数据集概述
基本信息
- 数据集名称: evals-speech-recognition-cy-en-2511
- 存储位置: https://huggingface.co/datasets/DewiBrynJones/evals-speech-recognition-cy-en-2511
配置信息
配置1: cymen_arfor__lleisiau_arfor
- 特征字段:
- sentence (字符串)
- accent (字符串)
- language (字符串)
- id (字符串)
- prediction (字符串)
- 数据分割:
- DewiBrynJones__whisper_large_v3_ft_btb_cv_cvad_ca_cy_2511__main: 3735个样本,615366字节
- DewiBrynJones__whisper_large_v3_ft_btb_cv_cvad_ca_wlga_cy_2511__main: 3735个样本,613871字节
- DewiBrynJones__whisper_large_v2_ft_btb_cv_cvad_ca_wlga_cy_2511__main: 3735个样本,615051字节
- 下载大小: 1127210字节
- 数据集大小: 1844288字节
配置2: techiaith__banc_trawsgrifiadau_bangor
- 特征字段:
- sentence (字符串)
- id (字符串)
- prediction (字符串)
- 数据分割:
- DewiBrynJones__whisper_large_v3_ft_btb_cv_cvad_ca_cy_2511__main: 3899个样本,512543字节
- DewiBrynJones__whisper_large_v3_ft_btb_cv_cvad_ca_wlga_cy_2511__main: 3899个样本,513870字节
- DewiBrynJones__whisper_large_v2_ft_btb_cv_cvad_ca_wlga_cy_2511__main: 3899个样本,514146字节
- 下载大小: 1084190字节
- 数据集大小: 1540559字节
配置3: techiaith__commonvoice_18_0_cy
- 特征字段:
- sentence (字符串)
- language (字符串)
- id (字符串)
- prediction (字符串)
- 数据分割:
- DewiBrynJones__whisper_large_v3_ft_btb_cv_cvad_ca_cy_2511__main: 5386个样本,703398字节
- DewiBrynJones__whisper_large_v3_ft_btb_cv_cvad_ca_wlga_cy_2511__main: 5386个样本,704764字节
- DewiBrynJones__whisper_large_v2_ft_btb_cv_cvad_ca_wlga_cy_2511__main: 5386个样本,703555字节
- 下载大小: 1440173字节
- 数据集大小: 2111717字节
配置4: techiaith__commonvoice_18_0_cy_en
- 特征字段:
- sentence (字符串)
- language (字符串)
- id (字符串)
- prediction (字符串)
- 数据分割:
- DewiBrynJones__whisper_large_v3_ft_btb_cv_cvad_ca_cy_2511__main: 10773个样本,1595293字节
- DewiBrynJones__whisper_large_v3_ft_btb_cv_cvad_ca_wlga_cy_2511__main: 10773个样本,1604832字节
- DewiBrynJones__whisper_large_v2_ft_btb_cv_cvad_ca_wlga_cy_2511__main: 10773个样本,1572327字节
- 下载大小: 3227163字节
- 数据集大小: 4772452字节
模型评估结果
| 模型 | 测试集 | WER | CER |
|---|---|---|---|
| DewiBrynJones/whisper-large-v3-ft-btb-cv-cvad-ca-cy-2511 | cymen-arfor/lleisiau-arfor | 31.4418 | 12.6665 |
| DewiBrynJones/whisper-large-v3-ft-btb-cv-cvad-ca-wlga-cy-2511 | cymen-arfor/lleisiau-arfor | 29.3326 | 11.3554 |
| DewiBrynJones/whisper-large-v2-ft-btb-cv-cvad-ca-wlga-cy-2511 | cymen-arfor/lleisiau-arfor | 28.1715 | 10.9305 |
| DewiBrynJones/whisper-large-v3-ft-btb-cv-cvad-ca-cy-2511 | techiaith/banc-trawsgrifiadau-bangor | 27.686 | 9.6299 |
| DewiBrynJones/whisper-large-v3-ft-btb-cv-cvad-ca-wlga-cy-2511 | techiaith/banc-trawsgrifiadau-bangor | 27.5477 | 9.7759 |
| DewiBrynJones/whisper-large-v2-ft-btb-cv-cvad-ca-wlga-cy-2511 | techiaith/banc-trawsgrifiadau-bangor | 25.3474 | 8.8514 |
| DewiBrynJones/whisper-large-v3-ft-btb-cv-cvad-ca-cy-2511 | techiaith/commonvoice-18-0-cy | 15.1443 | 4.129 |
| DewiBrynJones/whisper-large-v3-ft-btb-cv-cvad-ca-wlga-cy-2511 | techiaith/commonvoice-18-0-cy | 14.6835 | 4.4033 |
| DewiBrynJones/whisper-large-v2-ft-btb-cv-cvad-ca-wlga-cy-2511 | techiaith/commonvoice-18-0-cy | 15.1033 | 4.2255 |
| DewiBrynJones/whisper-large-v3-ft-btb-cv-cvad-ca-cy-2511 | techiaith/commonvoice-18-0-cy-en | 34.1071 | 21.554 |
| DewiBrynJones/whisper-large-v3-ft-btb-cv-cvad-ca-wlga-cy-2511 | techiaith/commonvoice-18-0-cy-en | 34.8178 | 21.5062 |
| DewiBrynJones/whisper-large-v2-ft-btb-cv-cvad-ca-wlga-cy-2511 | techiaith/commonvoice-18-0-cy-en | 24.1402 | 13.2034 |
搜集汇总
数据集介绍

构建方式
在威尔士语-英语语音识别研究领域,该数据集通过集成多个权威语料库构建而成。其核心来源包括cymmen-arfor的本地语音库、班戈大学转录档案以及Mozilla Common Voice项目的双语语料,每个子集均采用标准化数据清洗流程。数据构建过程特别注重语音文本的对齐质量,所有音频样本均经过多轮人工校验,并采用Whisper系列模型的三个变体进行自动标注增强,形成具有多重验证机制的平行语料。
使用方法
研究人员可通过HuggingFace平台直接加载四个标准配置的子数据集,每个配置包含三个模型版本的预测结果。使用时应根据研究目标选择相应子集:cymmen-arfor适用于方言识别研究,banc-trawsgrifiadau-bangor适合学术语音分析,commonvoice子集则服务于通用语音识别任务。数据集支持端到端的模型评估流程,用户可通过对比不同模型的WER和CER指标,系统评估语音识别系统在威尔士语及其方言变体上的性能表现。
背景与挑战
背景概述
在语音识别技术快速发展的背景下,威尔士语-英语双语数据集的构建成为语言技术研究的重要方向。该数据集由Dewi Bryn Jones等研究人员主导开发,整合了CommonVoice、Bangor转录库等多个权威语料源,旨在解决低资源语言在自动语音识别系统中的性能瓶颈问题。其核心研究聚焦于跨语言声学模型适配与方言变体处理,通过Whisper系列模型的微调实验,显著提升了威尔士语在复杂语音环境下的识别准确率,为濒危语言数字化保护提供了关键技术支撑。
当前挑战
该数据集面临的双语混合语音识别任务存在多重挑战:在领域问题层面,威尔士语作为黏着语具有复杂的音系结构和方言变体,导致声学模型在音素边界判定和词汇形态分析时易产生错误传播;同时英语插入导致的语码转换现象加剧了语言模型建模难度。在构建过程中,原始语料存在标注不一致与音频质量参差问题,需要设计多阶段数据清洗流程,而方言区域不平衡分布则要求采用对抗训练策略来提升模型泛化能力。
常用场景
经典使用场景
在语音识别技术领域,该数据集专为威尔士语和英语双语环境设计,通过整合多个来源的语音数据,包括CommonVoice和Bangor转录库等,为模型训练提供了丰富的语音文本对。其经典应用在于评估和优化自动语音识别系统在不同口音和语言变体下的性能,特别是在低资源语言处理中展现出色表现。
解决学术问题
该数据集有效解决了低资源语言自动语音识别中的关键学术难题,如数据稀疏性和模型泛化能力不足。通过提供大规模标注的双语语音数据,显著降低了词错误率和字符错误率,推动了跨语言语音处理技术的发展,对保护语言多样性和促进计算语言学进步具有深远意义。
实际应用
在实际应用中,该数据集支持开发多语言语音助手、教育工具和公共服务系统,例如在威尔士地区实现语音驱动的信息查询和交互服务。其高精度识别能力有助于打破语言障碍,提升数字包容性,并为医疗、法律等专业领域提供可靠的语音转录解决方案。
数据集最近研究
最新研究方向
在低资源语言处理领域,威尔士语-英语语音识别数据集正推动跨语言模型优化的前沿探索。当前研究聚焦于Whisper架构的微调策略,通过对比v2与v3版本在多个子集上的表现,揭示方言适应性训练对词错误率的影响。随着数字语言保护成为全球热点,该数据集为濒危语言的自动转录提供了基准测试平台,其双语平行语料更成为研究代码切换现象的重要资源。这些进展不仅提升了少数民族语言技术的实用性,也为构建包容性语音生态系统奠定了数据基石。
以上内容由遇见数据集搜集并总结生成



