mexican-voice-dataset

Hugging Face2025-10-22 更新2025-10-22 收录

下载链接：

https://huggingface.co/datasets/jmpanozzo/mexican-voice-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个小型的音频数据集，包含了一个带有墨西哥西班牙口音的男性成年人的声音。数据集通过ElevenLabs生成，旨在在一个较小的数据集中实现语音的多样性，用于对文本到语音(TTS)模型进行微调。

创建时间：

2025-10-17

原始信息汇总

Dataset de Voz Masculina - Español Mexicano (Antonio) 数据集概述

数据集基本信息

数据集名称：Dataset de Voz Masculina - Español Mexicano (Antonio)
存储位置：https://huggingface.co/datasets/jmpanozzo/mexican-voice-dataset
数据格式特征：
- source：字符串类型
- audio：音频类型
- text：字符串类型
数据规模：
- 训练集样本数量：986个
- 训练集大小：208,193,822字节
- 下载大小：189,522,345字节

数据集描述

用途：专为文本转语音（TTS）模型微调设计，特别适用于Orpheus/Sesame等模型
语音特征：
- 说话者：墨西哥西班牙语口音的成年男性
- 生成方式：通过ElevenLabs合成生成
- 特点：在小规模数据集中最大化音素、韵律和情感多样性

数据结构

组成：包含36个音频片段和1个metadata.csv文件
数据字段：
- source：说话者标识（固定为"antonio"）
- file_name：音频文件相对路径
- text：音频对应的清洗后文本转录

数据示例

json { "source": "antonio", "file_name": "audio_wav/5.wav", "text": "Qué extraño, el cielo se ve rojizo. ¿Crees que vaya a llover?" }

搜集汇总

数据集介绍

构建方式

在语音合成技术快速发展的背景下，该数据集通过专业语音生成平台ElevenLabs构建，采用合成语音技术生成墨西哥西班牙语成年男性发音人的语音样本。构建过程注重语音多样性设计，在有限样本规模内系统覆盖丰富的音素组合、韵律变化和情感表达，确保每个音频片段均配备精确的文本转录，形成完整的音频-文本配对数据。

特点

作为专注于墨西哥西班牙语语音特征的数据集，其核心价值体现在高度集中的语音特性与精心设计的多样性平衡。所有音频样本均保持统一的发音人身份和地域口音特征，同时通过科学设计的文本语料实现音素覆盖率和韵律变化的优化。数据集虽规模精简，但凭借其语音质量的一致性和语言特征的典型性，为特定口音的语音模型训练提供了高效样本。

使用方法

针对文本到语音模型的微调需求，该数据集提供了标准化的使用接口。研究人员可直接加载音频文件及其对应的文本转录，构建端到端的语音合成训练流水线。数据集的元数据结构清晰，支持快速索引和批量处理，特别适合用于个性化语音合成模型的参数优化。在实际应用中，建议将数据集划分为训练集和验证集，以监控模型在墨西哥西班牙语特征上的学习效果。

背景与挑战

背景概述

随着语音合成技术的快速发展，多语言语音数据资源的需求日益凸显。墨西哥语音数据集由匿名研究团队于2023年创建，专注于构建墨西哥西班牙语男性语音样本库。该数据集通过ElevenLabs合成平台生成，旨在解决低资源语言在文本转语音模型训练中的数据稀缺问题。其核心价值在于为Orpheus/Sesame等语音模型提供具有墨西哥地域特色的语音训练素材，推动西班牙语方言语音合成技术的前沿探索。

当前挑战

语音合成领域长期面临方言语音数据稀缺的困境，墨西哥西班牙语作为拉丁美洲重要方言变体，其独特的音韵特征对模型泛化能力构成挑战。在数据构建过程中，研究者需克服有限样本下的音素覆盖难题，通过精心设计的文本语料确保36段音频能完整呈现墨西哥方言的韵律特征和情感表达。合成语音的质量控制与自然度平衡亦是关键瓶颈，需在保持语音多样性的同时避免合成痕迹对模型训练的干扰。

常用场景

经典使用场景

在语音合成技术领域，墨西哥语音数据集作为专用资源，主要应用于文本转语音模型的精细化调优。该数据集通过精心设计的语音样本，为模型训练提供了丰富的声学特征和语言模式，特别适合优化西班牙语墨西哥方言的合成效果。研究人员利用其高质量的音频与文本配对数据，能够有效提升合成语音的自然度与情感表现力。

衍生相关工作

该数据集催生了多项语音合成领域的创新研究，特别是基于Orpheus/Sesame等架构的方言自适应模型开发。学者们利用其语音多样性特征，衍生出跨语言韵律迁移、低资源语音合成增强等研究方向。相关成果已推动墨西哥方言语音技术标准化进程，为后续多方言语音资源建设奠定理论基础。

数据集最近研究