the first in-the-wild Argentine Spanish corpus

Name: the first in-the-wild Argentine Spanish corpus
Creator: Universidad Nacional de Tres de Febrero
Published: 2025-10-03 23:38:33
License: 暂无描述

arXiv2025-10-03 更新2025-10-07 收录

下载链接：

https://gthub.com [1IW-curation

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集为首个捕捉阿根廷地区方言多样性的野外阿根廷西班牙语语料库，包含59位说话者的24小时音频。该数据集旨在解决传统TTS训练数据集在方言覆盖、多样性和成本方面的局限性，并为低资源语言提供更广泛、自然和多样化的训练材料。

This is the first field-collected Argentine Spanish corpus that captures the dialectal diversity of the Argentine region, containing 24 hours of audio data from 59 speakers. This dataset aims to address the limitations of traditional Text-to-Speech (TTS) training datasets in terms of dialect coverage, diversity and cost, and provides broader, more natural and diverse training materials for low-resource languages.

提供机构：

Universidad Nacional de Tres de Febrero

创建时间：

2025-10-03

搜集汇总

数据集介绍

构建方式

在低资源语言语音合成研究领域，阿根廷西班牙语首个野外语料库通过模块化预处理流程构建而成。该流程采用语音活动检测技术对原始音频进行自适应分段，结合深度滤波网络与Demucs两种降噪模型处理环境噪声，并运用非侵入式质量评估模型进行多阈值过滤。通过语音转录阶段采用高精度Whisper模型确保文本对齐，最终形成包含59名说话人、覆盖多种方言特征的24小时有效语音数据。

特点

该语料库显著特征体现在其真实环境下的语音多样性，完整保留了阿根廷各地区的方言韵律特性。数据集通过量化指标呈现声学参数均衡性，包括PESQ提升至3.28±0.49、信噪比优化至22.6±9.5dB等客观数据。其独特价值在于首次系统收录了野外环境中的阿根廷西班牙语变体，同时通过标准化度量体系确保了语音质量与方言特征保存度的平衡，为低资源语言研究提供了兼具自然度与技术可用性的数据基础。

使用方法

该数据集适用于语音合成系统的训练与评估，研究者可通过分层采样策略提取方言代表性样本。使用时应依据预处理配置矩阵选择适合的降噪与过滤参数组合，推荐采用Demucs降噪配合宽松阈值以平衡数据规模与质量。在模型训练阶段建议结合声学描述符监测系统表现，并利用提供的标准化度量体系进行跨模型性能对比，从而充分发挥该数据集在提升低资源语言语音合成自然度方面的潜力。

背景与挑战

背景概述

在语音合成技术快速发展的背景下，传统基于录音棚环境构建的语音语料库面临成本高昂与多样性不足的挑战。2025年由阿根廷二月三日大学与弗吉尼亚理工大学联合发布的阿根廷西班牙语野外语料库，作为首个涵盖阿根廷地区方言多样性的野外语音数据集，旨在解决低资源语言语音合成训练数据稀缺的核心问题。该语料库通过系统化采集网络环境中的自然语音，突破了传统语音库在口音覆盖与语音风格方面的局限，为低资源语言的语音技术研究提供了重要的数据支撑。

当前挑战

该数据集主要面临双重挑战：在领域问题层面，需应对野外语音数据中普遍存在的背景噪声、混响效应、语音重叠及转写错误等问题，这些因素直接影响语音合成模型训练效果；在构建过程层面，预处理流程需平衡去噪强度与语音保真度的矛盾，同时面临非侵入式质量评估标准不统一、计算资源受限条件下语音转写效率低下等工程难题。此外，方言多样性保护与数据质量控制的权衡关系也构成了重要的技术挑战。

常用场景

经典使用场景

在语音合成技术领域，阿根廷西班牙语首个真实环境语料库的构建为低资源语言研究提供了重要实验平台。该数据集通过整合来自互联网的多样化语音样本，覆盖了阿根廷境内多种地域口音，其经典应用场景在于作为文本转语音系统训练的基础数据源。研究者利用该语料库能够有效验证不同预处理流程对语音质量的影响，特别是在噪声抑制和语音增强等关键环节的优化效果。

解决学术问题

该数据集主要解决了低资源语言在语音合成研究中面临的数据稀缺问题。传统语音库依赖专业录音环境，成本高昂且缺乏口音多样性，而该语料库通过系统化的预处理流程，有效提升了真实环境录音的可用性。其创新之处在于建立了可量化的评估体系，通过客观指标如PESQ、SI-SDR等，为预处理管道的选择提供了科学依据，显著降低了语音合成系统的开发门槛。

衍生相关工作

基于该数据集衍生的经典研究主要集中在语音预处理方法的系统性比较与优化。相关工作中，Demucs和DeepFilterNet等去噪模型的性能对比研究，以及NISQA与DNSMOS质量评估标准的交叉验证，都为低资源语言语音数据处理提供了重要参考。这些工作进一步推动了模块化预处理管道的发展，为后续多语言语音合成研究建立了可复现的技术框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集