five

evals-speech-recognition-cy-en

收藏
Hugging Face2025-08-12 更新2025-08-13 收录
下载链接:
https://huggingface.co/datasets/DewiBrynJones/evals-speech-recognition-cy-en
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了四个不同的配置,每个配置都有句子、语言、ID和预测等相关信息。数据集的总下载大小约为1.89MB到5.43MB,总大小约为3.10MB到7.91MB,包含了不同数量的示例,从3735到10773不等。
创建时间:
2025-08-11
原始信息汇总

数据集概述

基本信息

  • 数据集名称: evals-speech-recognition-cy-en
  • 下载大小: 12.84 MB (总计)
  • 数据集大小: 18.96 MB (总计)

配置信息

配置1: cymen_arfor__lleisiau_arfor

  • 特征:
    • sentence: string
    • accent: string
    • language: string
    • id: string
    • prediction: string
  • 分割:
    • openai__whisper_large_v3__main: 3,735 个样本,642,060 字节
    • techiaith__whisper_large_v3_ft_verbatim_cy_en__25.03: 3,735 个样本,614,302 字节
    • techiaith__whisper_large_v3_ft_verbatim_cy_en__24.10: 3,735 个样本,608,645 字节
    • techiaith__kaldi_cy__main: 3,735 个样本,589,751 字节
    • mistralai__Voxtral_Mini_3B_2507__main: 3,735 个样本,645,993 字节
    • techiaith__wav2vec2_btb_cv_ft_cv_cy__24.10: 3,735 个样本,573,910 字节
  • 下载大小: 2,259,805 字节
  • 数据集大小: 3,674,661 字节

配置2: techiaith__banc_trawsgrifiadau_bangor

  • 特征:
    • sentence: string
    • id: string
    • prediction: string
  • 分割:
    • openai__whisper_large_v3__main: 3,899 个样本,557,956 字节
    • techiaith__whisper_large_v3_ft_verbatim_cy_en__25.03: 3,899 个样本,512,782 字节
    • techiaith__whisper_large_v3_ft_verbatim_cy_en__24.10: 3,899 个样本,513,324 字节
    • techiaith__kaldi_cy__main: 3,899 个样本,505,425 字节
    • mistralai__Voxtral_Mini_3B_2507__main: 3,899 个样本,562,286 字节
    • techiaith__wav2vec2_btb_cv_ft_cv_cy__24.10: 3,899 个样本,493,366 字节
  • 下载大小: 2,197,240 字节
  • 数据集大小: 3,145,139 字节

配置3: techiaith__commonvoice_18_0_cy

  • 特征:
    • sentence: string
    • language: string
    • id: string
    • prediction: string
  • 分割:
    • openai__whisper_large_v3__main: 5,386 个样本,721,977 字节
    • techiaith__whisper_large_v3_ft_verbatim_cy_en__25.03: 5,386 个样本,703,208 字节
    • techiaith__whisper_large_v3_ft_verbatim_cy_en__24.10: 5,386 个样本,704,248 字节
    • techiaith__kaldi_cy__main: 5,386 个样本,694,893 字节
    • mistralai__Voxtral_Mini_3B_2507__main: 5,386 个样本,716,742 字节
    • techiaith__wav2vec2_btb_cv_ft_cv_cy__24.10: 5,386 个样本,694,167 字节
  • 下载大小: 2,940,754 字节
  • 数据集大小: 4,235,235 字节

配置4: techiaith__commonvoice_18_0_cy_en

  • 特征:
    • sentence: string
    • language: string
    • id: string
    • prediction: string
  • 分割:
    • openai__whisper_large_v3__main: 10,773 个样本,1,623,825 字节
    • techiaith__whisper_large_v3_ft_verbatim_cy_en__25.03: 10,773 个样本,1,575,659 字节
    • techiaith__whisper_large_v3_ft_verbatim_cy_en__24.10: 10,773 个样本,1,655,514 字节
    • techiaith__kaldi_cy__main: 10,773 个样本,1,490,373 字节
    • mistralai__Voxtral_Mini_3B_2507__main: 10,773 个样本,1,563,785 字节
  • 下载大小: 5,432,658 字节
  • 数据集大小: 7,909,156 字节
搜集汇总
数据集介绍
main_image_url
构建方式
在威尔士语-英语语音识别研究领域,该数据集通过整合多个权威来源构建而成。数据集核心由四个子集构成:cymen_arfor__lleisiau_arfor包含3735条带口音标注的语句,techiaith__banc_trawsgrifiadau_bangor收录3899条班戈大学转录文本,两个Common Voice子集分别包含5386条纯威尔士语和10773条双语数据。所有文本均经过六种主流语音识别模型(包括Whisper系列、Kaldi和Wav2Vec2)的并行处理,形成多模型预测结果比对框架。
特点
该数据集最显著的特征在于其多维度的语音识别评估体系。每个样本不仅包含原始语句和唯一标识符,还集成了六种不同语音识别模型的预测结果,涵盖开源模型(如Kaldi)、商业模型(Whisper系列)及混合模型(Voxtral)。语言维度上同时覆盖威尔士语单语和威尔士语-英语双语场景,部分样本还标注了方言口音信息,为研究方言语音识别提供了独特资源。数据总量达790万字节,具备足够的统计显著性。
使用方法
研究者可通过HuggingFace平台直接加载特定子集进行模型评估。数据集采用标准结构化存储,每个子集按模型版本划分独立split,便于横向比较不同语音识别架构的性能差异。典型应用场景包括:通过比对prediction字段分析模型错误模式,利用language字段进行跨语言识别研究,或抽取accent字段开展方言鲁棒性测试。数据加载后可直接对接主流机器学习框架进行WER计算等定量分析。
背景与挑战
背景概述
evals-speech-recognition-cy-en数据集聚焦于威尔士语(Cy)与英语(En)的双语语音识别研究,由Techiaith等机构联合构建。该数据集整合了多个子集,包括Common Voice 18.0的威尔士语版本及本地化语料库,旨在解决低资源语言在自动语音识别(ASR)领域的数据稀缺问题。通过纳入Whisper、Kaldi和wav2vec2等多种主流模型的预测结果,该数据集为跨语言语音技术比较提供了基准平台,对促进少数语言在人工智能领域的应用具有显著意义。
当前挑战
该数据集面临的核心挑战体现在两方面:领域问题上,威尔士语作为低资源语言,其复杂的音系结构和有限标注数据导致模型泛化能力不足;构建过程中,多源数据整合时存在标注标准不统一、口音多样性覆盖不全等问题,且不同ASR模型的预测结果差异增加了质量评估的复杂度。如何平衡数据规模与标注精度,以及建立跨语言语音识别的统一评估框架,仍是待突破的关键难点。
常用场景
经典使用场景
在语音识别技术的研究中,evals-speech-recognition-cy-en数据集被广泛用于评估和比较不同模型在威尔士语和英语双语环境下的性能表现。该数据集包含多种语音识别模型的预测结果,为研究者提供了一个标准化的测试平台,用于验证模型在复杂语言环境中的准确性和鲁棒性。
解决学术问题
该数据集有效解决了多语言语音识别领域中的关键问题,如语言混合环境下的模型泛化能力和跨语言迁移学习。通过提供丰富的双语语音样本和多种模型的预测结果,研究者能够深入分析不同算法在威尔士语和英语混合场景中的表现,推动了语音识别技术在低资源语言中的应用。
衍生相关工作
基于该数据集,研究者已开展多项经典工作,包括优化Whisper和Kaldi等开源语音识别模型在双语环境中的性能,以及探索多语言语音识别中的迁移学习策略。这些工作显著提升了模型在低资源语言环境下的表现,并为后续研究提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作