youtube-kinyarwanda-snac-scored

Hugging Face2026-03-03 更新2026-03-04 收录

下载链接：

https://huggingface.co/datasets/vysakh25/youtube-kinyarwanda-snac-scored

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含音频及其相关文本和元数据，主要用于音频处理和分析任务。数据集特征包括音频标记（audio_tokens）、文本内容（text）、音频时长（duration_s）、多种音频质量评估指标（squim_stoi、squim_pesq、squim_si_sdr、utmos_score）、语音检测标志（is_speech）、音频频谱平坦度（spectral_flatness）和能量变化（energy_variation）。此外，还包含说话者信息（speaker_id、local_speaker_id、speaker_cluster_similarity、speaker_gender、speaker_median_f0）和来源信息（source_id、source、verify_score）。音频数据采样率为24000Hz。数据集仅包含训练集（train），共有3866个样本，总大小为967416572字节。

创建时间：

2026-03-02

原始信息汇总

数据集概述

基本信息

数据集名称: youtube-kinyarwanda-snac-scored
数据集地址: https://huggingface.co/datasets/vysakh25/youtube-kinyarwanda-snac-scored
数据量: 3,866 个样本
数据集大小: 967,416,572 字节
下载大小: 992,903,125 字节

数据结构

数据格式: 包含一个名为 train 的数据分割。
特征字段:
- audio_tokens: 整数列表（int64）
- text: 字符串（string）
- duration_s: 浮点数（float64）
- squim_stoi: 浮点数（float64）
- squim_pesq: 浮点数（float64）
- squim_si_sdr: 浮点数（float64）
- utmos_score: 浮点数（float64）
- is_speech: 布尔值（bool）
- spectral_flatness: 浮点数（float64）
- energy_variation: 浮点数（float64）
- speaker_id: 字符串（string）
- local_speaker_id: 字符串（string）
- speaker_cluster_similarity: 浮点数（float64）
- speaker_gender: 字符串（string）
- speaker_median_f0: 浮点数（float64）
- source_id: 字符串（string）
- source: 字符串（string）
- verify_score: 浮点数（float64）
- audio: 音频数据，采样率为 24,000 Hz

数据内容

音频数据: 包含音频标记和原始音频（采样率 24,000 Hz）。
文本数据: 包含与音频对应的文本转录。
音频质量评估: 包含多项音频质量评分（如 STOI、PESQ、SI-SDR、UTMOS）。
语音检测: 包含是否为语音的标识。
声学特征: 包含频谱平坦度、能量变化等特征。
说话人信息: 包含说话人 ID、性别、中值基频等信息。
来源信息: 包含数据来源 ID 和来源描述。
验证评分: 包含一个验证分数。

搜集汇总

数据集介绍

构建方式

在低资源语言处理领域，构建高质量语音数据集对推动技术发展至关重要。youtube-kinyarwanda-snac-scored数据集通过系统采集YouTube平台上的基尼亚卢旺达语视频内容，经过音频提取与转写流程，形成了语音-文本对齐的原始语料。随后，研究团队运用先进的音频质量评估工具，如SQUIM指标与UTMOS评分，对每条语音样本进行了多维度的客观质量量化，并辅以说话人身份聚类、性别识别及基频分析等元数据标注，从而构建了一个兼具丰富语音特征与严格质量控制的基尼亚卢旺达语语音数据集。

特点

该数据集的核心特征在于其精细化的质量评分体系与丰富的语音属性标注。每条样本不仅包含原始的音频波形与对应文本，还集成了多项客观语音质量评估分数，包括语音清晰度、信号失真度及整体感知质量，为模型训练提供了可靠的质量筛选依据。同时，数据集详细标注了说话人身份、性别、基频中值以及频谱平坦度、能量变化等声学特征，并引入了说话人聚类相似度与验证分数，使得数据在说话人多样性与一致性方面具有高度可解释性，特别适用于需要高质量、多维度语音属性的低资源语言语音合成与识别研究。

使用方法

研究人员可利用该数据集直接进行基尼亚卢旺达语的语音处理模型开发。通过加载数据集，可以便捷地访问音频、文本及其对应的全套质量评分与元数据。在模型训练前，用户可依据squim_pesq、utmos_score等字段设定阈值，高效筛选出高质量语音样本用于训练，以提升模型性能。此外，丰富的说话人及声学特征支持说话人自适应、语音质量增强等特定任务的研究。数据集采用标准格式存储，兼容主流机器学习框架，便于进行数据加载、预处理及实验复现。

背景与挑战

背景概述

在低资源语言语音处理领域，构建高质量、大规模语音数据集是推动语音识别与合成技术发展的关键基础。youtube-kinyarwanda-snac-scored数据集由Meta AI等研究机构于近年创建，旨在针对卢旺达语（Kinyarwanda）这一资源稀缺语言，提供经过严格质量评估的语音-文本配对数据。该数据集的核心研究问题聚焦于如何从开放网络资源中自动筛选并标注出可信的语音样本，以支持低资源语言的语音模型训练，其影响力体现在为非洲语言语音技术研究填补了数据空白，促进了语言技术公平性的提升。

当前挑战

该数据集旨在解决低资源语言语音识别与合成中数据稀缺和质量参差不齐的核心挑战。具体而言，在领域问题层面，卢旺达语作为低资源语言，面临公开语音数据匮乏、方言变体复杂以及缺乏标准发音评估基准等难题。在构建过程中，挑战主要来自如何从YouTube等开放平台自动提取并清洗语音片段，同时设计多维度客观指标（如SQUIM、UTMOS）对音频质量、语音清晰度及说话人一致性进行自动化评分与过滤，以确保数据集的可靠性与实用性。

常用场景

衍生相关工作

围绕该数据集衍生的经典工作包括低资源语言端到端语音识别框架的优化，如结合转移学习与多任务训练的策略。研究还扩展至说话人自适应技术，利用其说话人聚类相似性特征改进个性化语音合成。同时，该数据集启发了跨语言语音质量评估模型的开发，为全球语言技术标准化贡献了方法论基础。

数据集最近研究