evals-speech-recognition-cy-en-2601

Hugging Face2026-02-09 更新2026-02-10 收录

下载链接：

https://huggingface.co/datasets/DewiBrynJones/evals-speech-recognition-cy-en-2601

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含四个不同的配置，分别针对威尔士语和英语（英国/爱尔兰）的语音转录任务。每个配置包含句子、口音、语言、ID、任务和预测等字段。数据集规模从1,183,531字节到9,244,508字节不等，样本数量从3,735到9,732不等。数据集适用于语音识别和转录任务，并提供了两种模型（DewiBrynJones/whisper-large-v2-ft-cy-2601和techiaith/kaldi-cy-2601）在不同测试集上的词错误率（WER）和字符错误率（CER）性能指标。

创建时间：

2026-02-07

原始信息汇总

数据集概述

基本描述

本数据集是一个用于评估威尔士语（cy）和英语（en）语音识别模型性能的评估数据集。它包含多个子集（配置），每个子集均提供了两个不同语音识别模型在特定测试集上的预测结果及评估指标。

数据集配置与结构

数据集包含四个独立的配置（config），每个配置对应一个特定的测试集，并包含两个模型预测结果的分片（split）。

1. 配置：`cymen_arfor__lleisiau_arfor`

数据特征:
- sentence (string): 句子文本。
- accent (string): 口音。
- language (string): 语言。
- id (string): 标识符。
- task (string): 任务类型。
- prediction (string): 模型预测的文本。
数据分片:
- DewiBrynJones__whisper_large_v2_ft_cy_2601__main: 包含 3,735 个样本，大小约 683,836 字节。
- techiaith__kaldi_cy_2601__main: 包含 3,735 个样本，大小约 643,358 字节。
大小信息:
- 下载大小: 734,624 字节。
- 数据集总大小: 1,327,194 字节。

2. 配置：`techiaith__banc_trawsgrifiadau_bangor`

数据特征:
- sentence (string): 句子文本。
- id (string): 标识符。
- task (string): 任务类型。
- language (string): 语言。
- prediction (string): 模型预测的文本。
数据分片:
- DewiBrynJones__whisper_large_v2_ft_cy_2601__main: 包含 3,899 个样本，大小约 597,006 字节。
- techiaith__kaldi_cy_2601__main: 包含 3,899 个样本，大小约 586,525 字节。
大小信息:
- 下载大小: 714,908 字节。
- 数据集总大小: 1,183,531 字节。

3. 配置：`techiaith__commonvoice_23_0_cy`

数据特征:
- id (string): 标识符。
- client_id (string): 客户端标识符。
- path (string): 路径。
- sentence_id (string): 句子标识符。
- sentence (string): 句子文本。
- sentence_domain (string): 句子领域。
- up_votes (int64): 赞成票数。
- down_votes (int64): 反对票数。
- age (string): 年龄。
- gender (string): 性别。
- accents (string): 口音。
- variant (string): 变体。
- locale (string): 区域设置。
- segment (string): 片段。
- task (string): 任务类型。
- language (string): 语言。
- prediction (string): 模型预测的文本。
数据分片:
- DewiBrynJones__whisper_large_v2_ft_cy_2601__main: 包含 5,408 个样本，大小约 2,434,221 字节。
- techiaith__kaldi_cy_2601__main: 包含 5,408 个样本，大小约 2,425,316 字节。
大小信息:
- 下载大小: 2,074,102 字节。
- 数据集总大小: 4,859,537 字节。

4. 配置：`techiaith__commonvoice_23_0_en__GB_IE`

数据特征:
- id (string): 标识符。
- client_id (string): 客户端标识符。
- path (string): 路径。
- sentence_id (string): 句子标识符。
- sentence (string): 句子文本。
- sentence_domain (string): 句子领域。
- up_votes (int64): 赞成票数。
- down_votes (int64): 反对票数。
- age (string): 年龄。
- gender (string): 性别。
- accents (string): 口音。
- variant (string): 变体。
- locale (string): 区域设置。
- segment (string): 片段。
- task (string): 任务类型。
- language (string): 语言。
- prediction (string): 模型预测的文本。
数据分片:
- DewiBrynJones__whisper_large_v2_ft_cy_2601__main: 包含 9,732 个样本，大小约 4,657,238 字节。
- techiaith__kaldi_cy_2601__main: 包含 9,732 个样本，大小约 4,587,270 字节。
大小信息:
- 下载大小: 3,178,269 字节。
- 数据集总大小: 9,244,508 字节。

模型评估结果

数据集提供了两个语音识别模型在四个测试集上的词错误率（WER）和字错误率（CER）评估指标。

模型	测试集	任务	词错误率 (WER)	字错误率 (CER)
DewiBrynJones/whisper-large-v2-ft-cy-2601	cymen-arfor/lleisiau-arfor	transcribe	45.8927	23.3167
techiaith/kaldi-cy-2601	cymen-arfor/lleisiau-arfor	transcribe	57.0258	30.6267
DewiBrynJones/whisper-large-v2-ft-cy-2601	techiaith/banc-trawsgrifiadau-bangor	transcribe	36.0165	17.7667
techiaith/kaldi-cy-2601	techiaith/banc-trawsgrifiadau-bangor	transcribe	46.799	23.5965
DewiBrynJones/whisper-large-v2-ft-cy-2601	techiaith/commonvoice-23-0-cy	transcribe	17.2371	5.1933
techiaith/kaldi-cy-2601	techiaith/commonvoice-23-0-cy	transcribe	50.7736	17.6487
DewiBrynJones/whisper-large-v2-ft-cy-2601	techiaith/commonvoice-23-0-en/GB-IE	transcribe	8.2916	2.7544
techiaith/kaldi-cy-2601	techiaith/commonvoice-23-0-en/GB-IE	transcribe	111.7704	68.4739

搜集汇总

数据集介绍

构建方式

在语音识别领域，构建高质量的数据集对于模型性能评估至关重要。evals-speech-recognition-cy-en-2601数据集通过整合多个子集形成，包括cym_arfor__lleisiau_arfor、techiaith__banc_trawsgrifiadau_bangor、techiaith__commonvoice_23_0_cy和techiaith__commonvoice_23_0_en__GB_IE。每个子集均包含语音转录文本及元数据，如口音、语言和说话者信息。数据来源于公开语音资源，例如Common Voice项目，确保了数据的多样性和代表性。构建过程中，每个子集被划分为两个评估分割，分别对应不同的语音识别模型预测结果，从而支持跨模型的系统性能比较。

特点

该数据集展现了多语言语音识别的复杂性，涵盖威尔士语和英语两种语言，并包含不同口音和地域变体。其结构设计允许对多种语音识别模型进行并行评估，每个子集均提供详细的元数据，如句子、任务类型和预测结果。数据规模适中，总计超过两万条样本，平衡了覆盖范围与处理效率。特别值得注意的是，数据集包含了来自不同来源的语音数据，从正式录音到众包语音片段，反映了真实世界语音识别的挑战。这种多样性使得数据集能够全面评估模型在不同场景下的鲁棒性和准确性。

使用方法

使用该数据集时，研究人员可以加载特定配置的子集，例如cym_arfor__lleisiau_arfor或techiaith__commonvoice_23_0_cy，以针对不同语言或口音进行模型测试。每个子集包含两个主要分割，分别对应DewiBrynJones__whisper_large_v2_ft_cy_2601和techiaith__kaldi_cy_2601模型的预测结果，便于直接比较模型性能。通过分析提供的特征，如句子、预测文本和错误率指标（如WER和CER），用户可以评估语音识别系统的转录准确性。数据集适用于基准测试、模型优化以及跨语言语音识别研究，为学术和工业应用提供可靠的数据支持。

背景与挑战

背景概述

在语音识别技术迅猛发展的背景下，针对低资源语言及特定口音的识别任务逐渐成为研究焦点。evals-speech-recognition-cy-en-2601数据集由Techiaith等机构于2024年构建，旨在评估威尔士语（cy）与英语（en）双语环境下的自动语音识别模型性能。该数据集整合了多个子集，包括Lleisiau Arfor、Banc Trawsgrifiadau Bangor及CommonVoice 23.0的威尔士语与英式英语变体，涵盖了不同口音、领域和说话人特征，为研究多语言语音识别中的跨语言泛化、口音适应及数据稀缺问题提供了重要基准。其创建推动了威尔士语等少数语言在语音技术领域的应用，促进了语言多样性的技术包容。

当前挑战

该数据集致力于解决低资源语言语音识别中的核心挑战，包括威尔士语等少数语言因数据稀缺导致的模型泛化能力不足，以及英式英语口音变异引起的识别精度下降问题。构建过程中面临多重困难：首先，威尔士语语音数据的收集与标注需克服说话人样本有限、方言差异显著的障碍；其次，整合多源数据时需协调不同格式与质量标准，确保数据一致性与可比性；此外，评估框架需适应双语环境，平衡语言间性能差异，并处理口音、年龄等说话人变量带来的噪声。这些挑战凸显了在语言多样性背景下构建鲁棒语音识别系统的复杂性。

常用场景

经典使用场景

在语音识别领域，针对威尔士语和英语双语环境的评估需求日益增长。该数据集通过整合多个子集，如cymmen_arfor__lleisiau_arfor和techiaith__commonvoice_23_0_cy，为研究者提供了标准化的测试平台。其经典使用场景在于系统性地评估不同语音识别模型在威尔士语和英语双语任务上的性能，例如通过词错误率和字符错误率指标对比Whisper与Kaldi架构的优劣，从而推动低资源语言语音技术的优化与创新。

解决学术问题

该数据集有效解决了语音识别研究中低资源语言数据匮乏的核心挑战。通过提供威尔士语及其方言的标注语音样本，它支持了跨语言模型适应性、口音变异处理以及多任务学习等前沿问题的探索。其意义在于为学术界建立了可复现的评估基准，促进了威尔士语语音技术研究的标准化，并对保护语言多样性、推动数字包容性产生了深远影响。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作。例如基于Whisper-large-v2-ft-cy-2601模型的微调实验，探索了跨语言迁移学习在低资源语言上的有效性；而Kaldi-cy-2601的相关研究则聚焦于传统声学模型在双语环境中的优化。这些工作不仅深化了对威尔士语语音识别特性的理解，还为后续多语言语音技术融合、端到端系统设计提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

evals-speech-recognition-cy-en-2601

数据集概述

基本描述

数据集配置与结构

1. 配置：cymen_arfor__lleisiau_arfor

2. 配置：techiaith__banc_trawsgrifiadau_bangor

3. 配置：techiaith__commonvoice_23_0_cy

4. 配置：techiaith__commonvoice_23_0_en__GB_IE

模型评估结果

1. 配置：`cymen_arfor__lleisiau_arfor`

2. 配置：`techiaith__banc_trawsgrifiadau_bangor`

3. 配置：`techiaith__commonvoice_23_0_cy`

4. 配置：`techiaith__commonvoice_23_0_en__GB_IE`