common_voice_23_0_es
收藏Hugging Face2025-11-18 更新2025-11-19 收录
下载链接:
https://huggingface.co/datasets/bookbot/common_voice_23_0_es
下载链接
链接失效反馈官方服务:
资源简介:
Common Voice Scripted Speech 23.0 - Spanish的数据集修改版,增加了IPA格式的音素化句子新列。包含1,672,761个发音,449小时的验证语音,来自26,800多名说话者。
提供机构:
Bookbot
创建时间:
2025-11-13
原始信息汇总
Common Voice Scripted Speech 23.0 - Spanish 数据集概述
数据集基本信息
- 许可证: CC0-1.0
- 语言: 西班牙语
- 数据集名称: Common Voice Scripted Speech 23.0 - Spanish
数据集描述
该数据集是Common Voice Scripted Speech 23.0 - Spanish的修改版本,新增了包含IPA格式音素化句子的phonemes_ipa列。使用babygruut进行句子音素化。
数据规模
- 总话语数: 1,672,761条
- 总验证语音时长: 449小时
- 说话者数量: 超过26,800名
数据特征
| 特征名称 | 数据类型 | 描述 |
|---|---|---|
| audio | audio | 包含音频文件路径、波形数组和采样率(32kHz) |
| sentence_id | string | 句子/话语的唯一标识符 |
| sentence | string | 西班牙语口语内容的文本转录 |
| up_votes | int64 | 社区正面验证投票数 |
| down_votes | int64 | 社区负面验证投票数 |
| age | string | 说话者年龄组(如:twenties, thirties等) |
| gender | string | 说话者性别信息(如:male_masculine, female_feminine) |
| accents | string | 口音/方言分类(包含各种西班牙语地区) |
| locale | string | 语言区域标识符(es表示西班牙语) |
| phonemes_ipa | sequence<string> | 使用国际音标符号的音标转录,按单词分段 |
数据划分
| 划分 | 样本数量 | 数据大小 | 示例数量 |
|---|---|---|---|
| train | 1,506,323 | 16,206,510,224.846字节 | 353,701 |
| test | 83,219 | 648,632,431.768字节 | 15,893 |
| dev | 83,219 | - | - |
技术规格
- 下载大小: 14,074,118,611字节
- 数据集大小: 16,855,142,656.614字节
- 采样率: 32kHz
适用场景
- 训练具有广泛方言覆盖的西班牙语ASR模型
- 口音鲁棒性语音识别研究
- 哥伦比亚西班牙语语音技术开发
- 跨方言西班牙语语言模型训练
- 西班牙语市场的语音转文本应用
搜集汇总
数据集介绍

构建方式
作为多语言语音数据收集的典范,该数据集通过Mozilla基金会发起的Common Voice项目构建,采用社区众包模式采集西班牙语语音样本。原始音频由全球志愿者通过在线平台录制并上传,每个样本均经过文本验证和社区投票机制筛选,确保语音与文本转录的精确对应。技术团队在此基础上引入babygruut工具对文本进行音素化处理,新增国际音标标注列,形成包含发音特征的增强版本。
特点
该数据集最显著的特征在于其语音样本的多样性与丰富标注维度。不仅涵盖超过26,800名发音人的449小时有效语音,更细致标注了说话人的年龄分段、性别特征及地域口音信息。独特的音素级国际音标转录为语音学研究提供结构化数据支撑,32kHz采样率保证音频质量,而社区投票机制则构建了数据可靠性的双重保障。
使用方法
在语音技术研究领域,该数据集可直接应用于西班牙语自动语音识别系统的训练与评估。研究者可通过加载标准音频格式与对应文本标注,构建端到端的声学模型。音素标注层为发音变异研究提供分析基础,说话人元数据则支持多方言语音识别模型的开发。建议按照预设的训练测试划分进行模型验证,并利用发音属性字段开展语音技术公平性研究。
背景与挑战
背景概述
随着全球语音技术研究进入多语言深度应用阶段,Mozilla基金会于2023年推出的Common Voice 23.0西班牙语数据集成为语音识别领域的重要基础设施。该数据集汇聚来自26,800余名母语者的449小时验证语音,覆盖墨西哥、哥伦比亚等多地区口音,并创新性地引入国际音标音素标注。其大规模众包采集模式与严谨的社区验证机制,为西班牙语语音技术研究提供了前所未有的数据支撑,显著推动了拉丁美洲地区语音技术生态的发展。
当前挑战
在西班牙语语音识别领域,方言变体导致的声学模型泛化能力不足构成核心挑战。该数据集构建过程中面临口音多样性标注的复杂性,需要平衡墨西哥、阿根廷等地区发音差异;社区众包验证机制存在主观偏差风险,需通过多轮投票算法确保标注质量;音素转写环节依赖babygruut工具的跨方言适配,对西班牙语特有的塞擦音和颤音现象需进行特殊处理。这些挑战共同指向构建高鲁棒性多方言语音识别系统的关键技术瓶颈。
常用场景
经典使用场景
在语音技术研究领域,Common Voice西班牙语数据集凭借其覆盖26,800名说话者的多方言语音样本,成为构建鲁棒性自动语音识别系统的核心资源。该数据集通过社区验证机制确保语音与文本标注的精确对齐,其包含的年龄、性别和地域口音等元数据为研究语音多样性提供了丰富素材,特别适用于训练跨方言的端到端语音识别模型。
实际应用
在实际应用层面,该数据集支撑着面向西班牙语市场的智能语音系统开发。基于其训练的语音识别引擎已广泛应用于智能客服、实时字幕生成等场景,特别是在医疗紧急呼叫系统中,模型对各地域口音的强适应性确保了关键信息的准确传递,为西班牙语区数字包容建设提供了技术基础。
衍生相关工作
该数据集催生了系列创新研究,包括基于元数据感知的多任务学习框架和方言自适应算法。著名工作如XLSR-53跨语言模型利用其进行西班牙语预训练,显著提升了低资源方言的识别性能。后续研究进一步结合音素标注开发出音系感知的声学模型,推动了语音技术向细粒度分析方向发展。
以上内容由遇见数据集搜集并总结生成



