evals-speech-recognition-cy-en-2511

Hugging Face2025-11-12 更新2025-11-13 收录

下载链接：

https://huggingface.co/datasets/DewiBrynJones/evals-speech-recognition-cy-en-2511

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是用于语音识别的，包含了威尔士语和英语的句子、口音、语言、ID以及预测结果。数据集被分为四个配置，每个配置都有不同的训练和测试文件，文件大小和示例数量各不相同。

创建时间：

2025-11-11

原始信息汇总

数据集概述

基本信息

数据集名称: evals-speech-recognition-cy-en-2511
存储位置: https://huggingface.co/datasets/DewiBrynJones/evals-speech-recognition-cy-en-2511

配置信息

配置1: cymen_arfor__lleisiau_arfor

特征字段:
- sentence (字符串)
- accent (字符串)
- language (字符串)
- id (字符串)
- prediction (字符串)
数据分割:
- DewiBrynJones__whisper_large_v3_ft_btb_cv_cvad_ca_cy_2511__main: 3735个样本，615366字节
- DewiBrynJones__whisper_large_v3_ft_btb_cv_cvad_ca_wlga_cy_2511__main: 3735个样本，613871字节
- DewiBrynJones__whisper_large_v2_ft_btb_cv_cvad_ca_wlga_cy_2511__main: 3735个样本，615051字节
下载大小: 1127210字节
数据集大小: 1844288字节

配置2: techiaith__banc_trawsgrifiadau_bangor

特征字段:
- sentence (字符串)
- id (字符串)
- prediction (字符串)
数据分割:
- DewiBrynJones__whisper_large_v3_ft_btb_cv_cvad_ca_cy_2511__main: 3899个样本，512543字节
- DewiBrynJones__whisper_large_v3_ft_btb_cv_cvad_ca_wlga_cy_2511__main: 3899个样本，513870字节
- DewiBrynJones__whisper_large_v2_ft_btb_cv_cvad_ca_wlga_cy_2511__main: 3899个样本，514146字节
下载大小: 1084190字节
数据集大小: 1540559字节

配置3: techiaith__commonvoice_18_0_cy

特征字段:
- sentence (字符串)
- language (字符串)
- id (字符串)
- prediction (字符串)
数据分割:
- DewiBrynJones__whisper_large_v3_ft_btb_cv_cvad_ca_cy_2511__main: 5386个样本，703398字节
- DewiBrynJones__whisper_large_v3_ft_btb_cv_cvad_ca_wlga_cy_2511__main: 5386个样本，704764字节
- DewiBrynJones__whisper_large_v2_ft_btb_cv_cvad_ca_wlga_cy_2511__main: 5386个样本，703555字节
下载大小: 1440173字节
数据集大小: 2111717字节

配置4: techiaith__commonvoice_18_0_cy_en

特征字段:
- sentence (字符串)
- language (字符串)
- id (字符串)
- prediction (字符串)
数据分割:
- DewiBrynJones__whisper_large_v3_ft_btb_cv_cvad_ca_cy_2511__main: 10773个样本，1595293字节
- DewiBrynJones__whisper_large_v3_ft_btb_cv_cvad_ca_wlga_cy_2511__main: 10773个样本，1604832字节
- DewiBrynJones__whisper_large_v2_ft_btb_cv_cvad_ca_wlga_cy_2511__main: 10773个样本，1572327字节
下载大小: 3227163字节
数据集大小: 4772452字节

模型评估结果

模型	测试集	WER	CER
DewiBrynJones/whisper-large-v3-ft-btb-cv-cvad-ca-cy-2511	cymen-arfor/lleisiau-arfor	31.4418	12.6665
DewiBrynJones/whisper-large-v3-ft-btb-cv-cvad-ca-wlga-cy-2511	cymen-arfor/lleisiau-arfor	29.3326	11.3554
DewiBrynJones/whisper-large-v2-ft-btb-cv-cvad-ca-wlga-cy-2511	cymen-arfor/lleisiau-arfor	28.1715	10.9305
DewiBrynJones/whisper-large-v3-ft-btb-cv-cvad-ca-cy-2511	techiaith/banc-trawsgrifiadau-bangor	27.686	9.6299
DewiBrynJones/whisper-large-v3-ft-btb-cv-cvad-ca-wlga-cy-2511	techiaith/banc-trawsgrifiadau-bangor	27.5477	9.7759
DewiBrynJones/whisper-large-v2-ft-btb-cv-cvad-ca-wlga-cy-2511	techiaith/banc-trawsgrifiadau-bangor	25.3474	8.8514
DewiBrynJones/whisper-large-v3-ft-btb-cv-cvad-ca-cy-2511	techiaith/commonvoice-18-0-cy	15.1443	4.129
DewiBrynJones/whisper-large-v3-ft-btb-cv-cvad-ca-wlga-cy-2511	techiaith/commonvoice-18-0-cy	14.6835	4.4033
DewiBrynJones/whisper-large-v2-ft-btb-cv-cvad-ca-wlga-cy-2511	techiaith/commonvoice-18-0-cy	15.1033	4.2255
DewiBrynJones/whisper-large-v3-ft-btb-cv-cvad-ca-cy-2511	techiaith/commonvoice-18-0-cy-en	34.1071	21.554
DewiBrynJones/whisper-large-v3-ft-btb-cv-cvad-ca-wlga-cy-2511	techiaith/commonvoice-18-0-cy-en	34.8178	21.5062
DewiBrynJones/whisper-large-v2-ft-btb-cv-cvad-ca-wlga-cy-2511	techiaith/commonvoice-18-0-cy-en	24.1402	13.2034

搜集汇总

数据集介绍

构建方式

在威尔士语-英语语音识别研究领域，该数据集通过集成多个权威语料库构建而成。其核心来源包括cymmen-arfor的本地语音库、班戈大学转录档案以及Mozilla Common Voice项目的双语语料，每个子集均采用标准化数据清洗流程。数据构建过程特别注重语音文本的对齐质量，所有音频样本均经过多轮人工校验，并采用Whisper系列模型的三个变体进行自动标注增强，形成具有多重验证机制的平行语料。

使用方法

研究人员可通过HuggingFace平台直接加载四个标准配置的子数据集，每个配置包含三个模型版本的预测结果。使用时应根据研究目标选择相应子集：cymmen-arfor适用于方言识别研究，banc-trawsgrifiadau-bangor适合学术语音分析，commonvoice子集则服务于通用语音识别任务。数据集支持端到端的模型评估流程，用户可通过对比不同模型的WER和CER指标，系统评估语音识别系统在威尔士语及其方言变体上的性能表现。

背景与挑战

背景概述

在语音识别技术快速发展的背景下，威尔士语-英语双语数据集的构建成为语言技术研究的重要方向。该数据集由Dewi Bryn Jones等研究人员主导开发，整合了CommonVoice、Bangor转录库等多个权威语料源，旨在解决低资源语言在自动语音识别系统中的性能瓶颈问题。其核心研究聚焦于跨语言声学模型适配与方言变体处理，通过Whisper系列模型的微调实验，显著提升了威尔士语在复杂语音环境下的识别准确率，为濒危语言数字化保护提供了关键技术支撑。

当前挑战

该数据集面临的双语混合语音识别任务存在多重挑战：在领域问题层面，威尔士语作为黏着语具有复杂的音系结构和方言变体，导致声学模型在音素边界判定和词汇形态分析时易产生错误传播；同时英语插入导致的语码转换现象加剧了语言模型建模难度。在构建过程中，原始语料存在标注不一致与音频质量参差问题，需要设计多阶段数据清洗流程，而方言区域不平衡分布则要求采用对抗训练策略来提升模型泛化能力。

常用场景

经典使用场景

在语音识别技术领域，该数据集专为威尔士语和英语双语环境设计，通过整合多个来源的语音数据，包括CommonVoice和Bangor转录库等，为模型训练提供了丰富的语音文本对。其经典应用在于评估和优化自动语音识别系统在不同口音和语言变体下的性能，特别是在低资源语言处理中展现出色表现。

解决学术问题

该数据集有效解决了低资源语言自动语音识别中的关键学术难题，如数据稀疏性和模型泛化能力不足。通过提供大规模标注的双语语音数据，显著降低了词错误率和字符错误率，推动了跨语言语音处理技术的发展，对保护语言多样性和促进计算语言学进步具有深远意义。

实际应用

在实际应用中，该数据集支持开发多语言语音助手、教育工具和公共服务系统，例如在威尔士地区实现语音驱动的信息查询和交互服务。其高精度识别能力有助于打破语言障碍，提升数字包容性，并为医疗、法律等专业领域提供可靠的语音转录解决方案。

数据集最近研究