slr72_dataset

Name: slr72_dataset
Creator: Bookbot
Published: 2025-11-18 09:10:24
License: 暂无描述

Hugging Face2025-11-18 更新2025-11-19 收录

下载链接：

https://huggingface.co/datasets/bookbot/slr72_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个修改版的众包高质量哥伦比亚西班牙语语音数据集，新增了包含国际音标格式音标化句子的列。数据集由Google收集，提供了4,903个高质量的发音样本，总计约7.58小时的音频，来自哥伦比亚的西班牙语使用者。

提供机构：

Bookbot

创建时间：

2025-11-13

原始信息汇总

SLR72数据集概述

数据集基本信息

数据集名称：Crowdsourced high-quality Colombian Spanish speech dataset
数据来源：基于OpenSLR 72数据集的修改版本
语言：西班牙语（哥伦比亚方言）
许可证：CC-BY-SA-4.0
任务类别：自动语音识别

数据规模

总样本数：4,903条语音样本
总音频时长：约7.58小时
训练集样本数：3,922条
测试集样本数：981条
数据集总大小：2,620,624,481字节
下载大小：2,077,059,933字节

数据特征

数据集包含以下四个字段：

音频数据（audio）

包含音频文件路径、波形数组和采样率
采样率：48,000 Hz

文本转录（text）

西班牙语语音内容的文本转录

说话人标识（speaker_id）

说话人的唯一数字标识符

音素标注（phonemes_ipa）

使用国际音标（IPA）进行音素化标注
按单词进行分段标注
使用babygruut工具进行音素化处理

数据分割

分割类型	样本数量	数据大小（字节）
训练集	3,922	2,096,285,787
测试集	981	524,338,694

数据格式

数据以标准音频数据集格式组织，支持直接加载使用。训练集文件路径为data/train-*，测试集文件路径为data/test-*。

搜集汇总

数据集介绍

构建方式

在语音识别研究领域，高质量语音数据集的构建对于模型训练至关重要。slr72_dataset基于OpenSLR-72哥伦比亚西班牙语语音数据集，通过引入国际音标（IPA）音素标注进行了增强处理。原始数据由谷歌公司采集，包含4903条高质量语音样本，总时长约7.58小时。数据构建过程中采用babygruut工具对文本转录进行音素化处理，新增了phonemes_ipa字段，将西班牙语句子转换为IPA音标序列，并按照标准流程划分为训练集和测试集。

使用方法

在语音技术应用中，该数据集主要服务于自动语音识别系统的开发与评估。研究人员可分别使用3922条训练样本和981条测试样本进行模型训练与性能验证。通过加载音频数据与对应文本标签，可构建端到端的语音识别流水线。音素标注信息特别适用于音素级建模任务，支持从声学特征到音素序列的映射研究。数据集采用标准音频文件格式存储，兼容主流深度学习框架，使用者可直接提取波形数组和采样率进行特征提取，或利用音素序列开发发音词典等语言资源。

背景与挑战

背景概述

语音识别技术的发展推动了多语言语音资源的建设，slr72_dataset作为哥伦比亚西班牙语高质量语音数据集应运而生。该数据集由Google团队主导采集，于开放语音库平台发布初期便聚焦于方言语音资源的构建。其核心研究问题在于解决低资源语言在自动语音识别系统中的数据稀缺性，通过采集4903条哥伦比亚本土发音人的语音样本，为西班牙语方言研究提供了珍贵的声学建模基础。该资源显著提升了拉丁美洲地区语音技术的适配性，对跨方言语音识别系统的开发具有重要参考价值。

当前挑战

构建该数据集面临双重挑战：在领域问题层面，哥伦比亚西班牙语存在显著的地域性音变现象，传统语音识别模型难以准确捕捉其特有的韵律特征和辅音弱化规律；在数据构建过程中，语音文本对齐的精度受限于方言词汇的拼写变异，同时需克服背景噪声与采集设备差异对声学一致性的影响。此外，国际音标标注体系与西班牙语音系规则的适配性验证，亦成为保证音素转写质量的关键瓶颈。

常用场景

经典使用场景

在语音技术研究领域，slr72_dataset凭借其高质量的哥伦比亚西班牙语语音数据，常被用于自动语音识别系统的训练与评估。该数据集通过提供精确的音频转录文本及国际音标标注，为构建鲁棒的西班牙语语音模型奠定了坚实基础，尤其在处理方言变体方面展现出独特价值。

解决学术问题

该数据集有效解决了低资源语言语音模型开发的学术难题，通过提供标准化的音素标注体系，显著提升了语音识别系统对西班牙语发音变体的泛化能力。其精心设计的训练测试分割方案，为语音模型性能评估提供了可靠基准，推动了跨方言语音技术研究的标准化进程。

实际应用

在现实应用层面，该数据集支撑的语音技术已广泛应用于智能客服系统与教育辅助工具。基于其训练的语音识别引擎能够准确理解哥伦比亚地区的西班牙语口音，为当地用户提供更自然的语音交互体验，同时在语言学习软件中实现精准的发音评估与纠正功能。

数据集最近研究