BSC-LT/distilled-catalan-youtube-speech

Name: BSC-LT/distilled-catalan-youtube-speech
Creator: BSC-LT
Published: 2026-05-04 11:21:43
License: 暂无描述

Hugging Face2026-05-04 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/BSC-LT/distilled-catalan-youtube-speech

下载链接

链接失效反馈

官方服务：

资源简介：

Distilled Catalan YouTube Speech Corpus是一个精选的加泰罗尼亚语YouTube语音语料库子集，包含207小时的转录语音。该数据集通过两个独立的自动语音识别(ASR)系统（验证模型）自动验证转录内容，并根据系统一致性对转录质量进行分类：完美匹配（系统输出完全相同）和单词计数匹配（单词数相同但措辞不同，通过第三个ASR系统解决）。此外，还提供了手动标注的测试集和高置信度的验证集。该数据集旨在支持自动语音识别(ASR)的研究和开发，特别是在低资源和半监督设置下。数据集包含音频ID、音频文件、语料库ID、分割信息、语言、持续时间、性别、YouTube链接、共识信息、选择转录和规范化文本等字段。数据集分为perfect_matches、word_count_matches、validation和test四个部分。数据集由巴塞罗那超级计算中心策划，采用MIT许可证。

The Distilled Catalan YouTube Speech Corpus is a curated subset of the Catalan YouTube Speech Corpus, containing 207 hours of transcribed speech. The dataset uses two independent automatic speech recognition (ASR) systems (verification models) to automatically verify transcriptions and categorizes transcription quality based on system agreement: perfect matches (identical outputs between systems) and word count matches (same word count but different wording, resolved using a third ASR system). Additionally, a manually annotated test set and a high-confidence validation set are provided. The dataset is intended to support research and development in automatic speech recognition (ASR), especially in low-resource and semi-supervised settings. The dataset includes fields such as audio ID, audio file, corpus ID, split information, language, duration, gender, YouTube URL, consensus information, selected transcription, and normalized text. The dataset is divided into four parts: perfect_matches, word_count_matches, validation, and test. The dataset was curated by the Barcelona Supercomputing Center and is licensed under MIT.

提供机构：

BSC-LT

搜集汇总

数据集介绍

构建方式

该数据集源自Softcatalà开发的加泰罗尼亚语YouTube语音语料库，经由巴塞罗那超级计算中心语言技术实验室精心提炼而成。构建过程采用了创新的自动验证策略：首先训练两个彼此独立、基于不同数据源的语音识别模型作为验证器，随后利用这两个模型对原始语料中的转录文本进行交叉验证。当两个模型给出的转录完全一致时，该片段被归入“完美匹配”类别；若仅在词数上吻合而措辞各异，则引入第三个语音识别模型进行裁决，选取词错误率较低的转录作为最终结果。整个流程极大地减少了人工标注需求，仅测试集由专业人员手动标注，从而在保证高质量的同时实现了规模化扩展。

特点

此语料库囊括了207小时的自发性加泰罗尼亚语语音数据，根据转录可靠性精心划分为四个可加载子集：完美匹配集（131小时48分钟）、词数匹配集（70小时47分钟）、高置信度验证集以及人工标注测试集。其独到之处在于通过多模型共识机制自动筛选高质量转录，完美匹配类别中两模型转录完全相同，词数匹配类别中候选转录间的字符错误率不高于2.63%，整体词错误率预估不超过4%。所有音频均以16kHz采样率存储，并附带丰富的元数据，包括音频时长、说话人性别、原始YouTube视频链接以及归一化后的转录文本，为语音识别研究提供了结构化的优质数据源。

使用方法

数据集可通过HuggingFace Datasets库便捷加载，支持按需获取指定子集。用户可借助`load_dataset`函数一次性加载全部数据，或通过`split`参数指定加载完美匹配、验证集或测试集等特定部分。每个数据实例包含音频ID、音频数组与路径、语料库标识、数据切分信息、语言标签、音频时长、说话人性别、YouTube来源链接、模型共识标识、转录选择标识及归一化文本等字段。此数据集特别适用于自动语音识别任务的模型训练与评估，在加泰罗尼亚语等低资源语言的半监督学习场景中具有重要价值，研究者可直接使用其高置信度子集作为训练数据，或利用人工标注测试集进行性能基准测试。

背景与挑战

背景概述

加泰罗尼亚语作为一种低资源语言，在自动语音识别（ASR）领域面临标注数据匮乏的困境。由巴塞罗那超级计算中心语言技术实验室于2025年创建的Distilled Catalan YouTube Speech语料库，依托加泰罗尼亚政府资助的Aina项目，旨在通过半监督蒸馏策略从海量YouTube视频中筛选高置信度语音数据。该语料库包含207小时自发语音，采用双ASR系统（A与B）的转录一致性作为质量代理，并以手动标注的测试集和完全一致的验证集为基准。其发布为加泰罗尼亚语ASR研究提供了可靠的数据基础，推动了低资源语音技术的发展。

当前挑战

该数据集着力解决低资源语言ASR领域中高质量标注数据稀缺的核心问题，通过自动化验证替代昂贵的人工标注，但面临双重挑战：一是原始YouTube语音数据存在转录质量参差、背景噪声多样、多说话人重叠等问题，需依赖模型一致性过滤不可靠片段；二是构建过程中独立训练的验证模型需在不同数据源上保持鲁棒性，且针对词数一致但转录歧义的片段需引入第三方模型仲裁，增加了系统复杂性。此外，语料库继承的说话人性别元数据未经验证，且未处理语码混用现象，这些限制可能影响下游模型的泛化能力。

常用场景

经典使用场景

Distilled Catalan YouTube Speech Corpus 在语料匮乏语言（如加泰罗尼亚语）的自动语音识别研究中具有典范意义。该数据集通过双系统自动验证机制，从原始 YouTube 语音库中蒸馏出约 207 小时的高置信度转录语音。其核心使用场景包括：作为半监督学习训练集，用于提升低资源场景下 ASR 模型的鲁棒性；作为高可靠性验证集，用于评估语音识别系统的词错误率；同时，它还常用于研究跨系统一致性校验方法在数据清洗中的效用，成为构建高质量非标注语音资源的方法论参考。

衍生相关工作

该数据集衍生了一系列关于低资源语音识别验证策略与语料蒸馏算法的经典研究。例如，相关工作沿用其“双模型共识+第三方仲裁”范式，探索了在巴斯克语、加利西亚语等其他伊比利亚罗曼语族语料上的迁移效果。同时，基于该数据集的完美匹配（perfect_matches）与词数匹配（word_count_matches）分区设计，催生了针对转录置信度分级与噪声标签鲁棒训练（如噪声对比估计、课程学习）的改进方法。此外，该数据集还被作为加泰罗尼亚语自监督语音预训练模型（如 wav2vec 2.0 微调）的基准评测集，推动了该语言语音技术从无到有的体系化发展。

数据集最近研究