five

slr72_dataset

收藏
Hugging Face2025-11-18 更新2025-11-19 收录
下载链接:
https://huggingface.co/datasets/bookbot/slr72_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个修改版的众包高质量哥伦比亚西班牙语语音数据集,新增了包含国际音标格式音标化句子的列。数据集由Google收集,提供了4,903个高质量的发音样本,总计约7.58小时的音频,来自哥伦比亚的西班牙语使用者。
提供机构:
Bookbot
创建时间:
2025-11-13
原始信息汇总

SLR72数据集概述

数据集基本信息

  • 数据集名称:Crowdsourced high-quality Colombian Spanish speech dataset
  • 数据来源:基于OpenSLR 72数据集的修改版本
  • 语言:西班牙语(哥伦比亚方言)
  • 许可证:CC-BY-SA-4.0
  • 任务类别:自动语音识别

数据规模

  • 总样本数:4,903条语音样本
  • 总音频时长:约7.58小时
  • 训练集样本数:3,922条
  • 测试集样本数:981条
  • 数据集总大小:2,620,624,481字节
  • 下载大小:2,077,059,933字节

数据特征

数据集包含以下四个字段:

音频数据(audio)

  • 包含音频文件路径、波形数组和采样率
  • 采样率:48,000 Hz

文本转录(text)

  • 西班牙语语音内容的文本转录

说话人标识(speaker_id)

  • 说话人的唯一数字标识符

音素标注(phonemes_ipa)

  • 使用国际音标(IPA)进行音素化标注
  • 按单词进行分段标注
  • 使用babygruut工具进行音素化处理

数据分割

分割类型 样本数量 数据大小(字节)
训练集 3,922 2,096,285,787
测试集 981 524,338,694

数据格式

数据以标准音频数据集格式组织,支持直接加载使用。训练集文件路径为data/train-*,测试集文件路径为data/test-*

搜集汇总
数据集介绍
main_image_url
构建方式
在语音识别研究领域,高质量语音数据集的构建对于模型训练至关重要。slr72_dataset基于OpenSLR-72哥伦比亚西班牙语语音数据集,通过引入国际音标(IPA)音素标注进行了增强处理。原始数据由谷歌公司采集,包含4903条高质量语音样本,总时长约7.58小时。数据构建过程中采用babygruut工具对文本转录进行音素化处理,新增了phonemes_ipa字段,将西班牙语句子转换为IPA音标序列,并按照标准流程划分为训练集和测试集。
使用方法
在语音技术应用中,该数据集主要服务于自动语音识别系统的开发与评估。研究人员可分别使用3922条训练样本和981条测试样本进行模型训练与性能验证。通过加载音频数据与对应文本标签,可构建端到端的语音识别流水线。音素标注信息特别适用于音素级建模任务,支持从声学特征到音素序列的映射研究。数据集采用标准音频文件格式存储,兼容主流深度学习框架,使用者可直接提取波形数组和采样率进行特征提取,或利用音素序列开发发音词典等语言资源。
背景与挑战
背景概述
语音识别技术的发展推动了多语言语音资源的建设,slr72_dataset作为哥伦比亚西班牙语高质量语音数据集应运而生。该数据集由Google团队主导采集,于开放语音库平台发布初期便聚焦于方言语音资源的构建。其核心研究问题在于解决低资源语言在自动语音识别系统中的数据稀缺性,通过采集4903条哥伦比亚本土发音人的语音样本,为西班牙语方言研究提供了珍贵的声学建模基础。该资源显著提升了拉丁美洲地区语音技术的适配性,对跨方言语音识别系统的开发具有重要参考价值。
当前挑战
构建该数据集面临双重挑战:在领域问题层面,哥伦比亚西班牙语存在显著的地域性音变现象,传统语音识别模型难以准确捕捉其特有的韵律特征和辅音弱化规律;在数据构建过程中,语音文本对齐的精度受限于方言词汇的拼写变异,同时需克服背景噪声与采集设备差异对声学一致性的影响。此外,国际音标标注体系与西班牙语音系规则的适配性验证,亦成为保证音素转写质量的关键瓶颈。
常用场景
经典使用场景
在语音技术研究领域,slr72_dataset凭借其高质量的哥伦比亚西班牙语语音数据,常被用于自动语音识别系统的训练与评估。该数据集通过提供精确的音频转录文本及国际音标标注,为构建鲁棒的西班牙语语音模型奠定了坚实基础,尤其在处理方言变体方面展现出独特价值。
解决学术问题
该数据集有效解决了低资源语言语音模型开发的学术难题,通过提供标准化的音素标注体系,显著提升了语音识别系统对西班牙语发音变体的泛化能力。其精心设计的训练测试分割方案,为语音模型性能评估提供了可靠基准,推动了跨方言语音技术研究的标准化进程。
实际应用
在现实应用层面,该数据集支撑的语音技术已广泛应用于智能客服系统与教育辅助工具。基于其训练的语音识别引擎能够准确理解哥伦比亚地区的西班牙语口音,为当地用户提供更自然的语音交互体验,同时在语言学习软件中实现精准的发音评估与纠正功能。
数据集最近研究
最新研究方向
在语音技术领域,slr72_dataset作为高质量的哥伦比亚西班牙语语音数据集,正推动方言语音识别与发音建模的前沿探索。其新增的国际音标音素标注为低资源语言处理提供了关键支持,研究者们正利用该数据集开发对抗口音变体的端到端模型,并探索音素序列与声学特征的多模态对齐机制。随着拉美数字语音助手市场的扩张,该资源在提升方言适应性、消除语音偏见方面展现出重要意义,为跨文化语音技术的公平性研究奠定了数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作