argentina-speech

Hugging Face2025-07-28 更新2025-07-29 收录

下载链接：

https://huggingface.co/datasets/marianbasti/argentina-speech

下载链接

链接失效反馈

官方服务：

资源简介：

阿根廷语音数据集是一个综合性的阿根廷西班牙语语音数据集，它汇集了多个开放的数据集，为语音识别和相关任务提供了一个多样化的资源。该数据集包括来自HuggingFace的多个阿根廷西班牙语语音语料库，如ylacombe的google-argentinian-spanish、mozilla-foundation的common_voice_17_0（经过阿根廷口音筛选）、marianbasti的preseea和cordeba。所有样本都标准化为以下列：UUID（唯一标识符）、audio（音频文件或路径）、text（转录文本）和source（原始HuggingFace数据集ID）。

创建时间：

2025-07-28

原始信息汇总

Argentinian Speech Dataset 概述

数据集摘要

合并了多个阿根廷西班牙语语音语料库，为语音识别及相关任务提供多样化资源
包含以下来源数据集：
- ylacombe/google-argentinian-spanish
- mozilla-foundation/common_voice_17_0（过滤保留阿根廷口音）
- marianbasti/preseea
- marianbasti/cordeba

数据结构

标准化列结构：

列名描述

UUID 样本唯一标识符

audio 音频文件或路径

text 文本转录

source 原始数据集ID

支持任务

自动语音识别（ASR）
口音/方言识别
语音转文本研究

语言

西班牙语（阿根廷变体）

来源数据集详情

OpenSLR (ylacombe/google-argentinian-spanish)
- 阿根廷西班牙语语音
- 包含男女说话人
Common Voice (mozilla-foundation/common_voice_17_0)
- 过滤保留阿根廷口音样本
PRESEEA (marianbasti/preseea)
- 阿根廷社会语言学访谈数据
CORdeBA (marianbasti/cordeba)
- 多轮对话数据（合并为单句表达）

使用方式

提供Parquet格式文件
支持使用pandas或HuggingFace Datasets直接加载

引用要求

使用本数据集时需引用原始数据集及本合并资源：

bibtex @misc{argentinian_speech_combined, title = {Argentinian Speech Dataset (Combined)}, year = {2024}, url = {https://huggingface.co/datasets/marianbasti/argentinian-speech} }

许可证

各子数据集保持原有许可证（如OpenSLR采用Attribution-ShareAlike 4.0 International）

搜集汇总

数据集介绍

构建方式

阿根廷语音数据集通过整合多个公开可用的语音语料库构建而成，涵盖了多样化的阿根廷西班牙语发音特征。该数据集精选了来自OpenSLR、Common Voice、PRESEEA和CORdeBA等权威来源的语音样本，经过严格的筛选和标准化处理，确保数据质量的一致性。构建过程中特别注重保留阿根廷方言的地域特色，所有样本均统一为包含UUID、音频文件、文本转录和来源的四列结构化格式，便于后续研究使用。

特点

该数据集最显著的特点在于其丰富的语音多样性，既包含男女不同性别的发音样本，又涵盖从正式访谈到日常对话等多种语音场景。数据集特别突出了阿根廷西班牙语特有的语调、节奏和发音特征，为方言研究提供了珍贵素材。所有音频文件均配有精确的文本转录，且标注了原始数据来源，方便研究者追溯和验证。这种多源数据的融合使得该数据集在语音识别和方言分析领域具有独特的应用价值。

使用方法

研究者可通过HuggingFace Datasets库或pandas直接加载Parquet格式的数据文件，快速开展语音识别、方言分类等实验。数据集的标准结构化设计使得音频文件与文本转录的对应关系清晰明确，支持端到端的模型训练流程。对于特定研究方向，用户可根据source字段筛选特定子数据集，或结合多源数据进行对比分析。使用时应遵循各原始数据集的许可协议，并按规定引用相关文献。

背景与挑战

背景概述

阿根廷语音数据集（Argentina Speech Dataset）是2024年由研究者整合多个公开语音语料库构建而成的综合性资源，旨在为阿根廷西班牙语的语音识别及相关研究提供多样化数据支持。该数据集融合了来自OpenSLR、Common Voice、PRESEEA和CORdeBA等平台的语音样本，覆盖了从社会语言学访谈到多轮对话等多种语音类型。阿根廷西班牙语作为一种具有独特语音特征和地域变体的语言，其研究对提升语音技术的方言适应性具有重要意义。该数据集的建立不仅填补了拉丁美洲西班牙语低资源语种的空白，也为口音识别、语音转文本等任务提供了关键数据基础。

当前挑战

该数据集面临的挑战主要体现在两方面：其一，阿根廷西班牙语内部存在显著的地区性变体，如何在语音识别模型中准确捕捉这些细微差异成为技术难点；其二，数据整合过程中需解决多源数据的格式异构问题，包括音频采样率、转录标准及元数据规范的统一。此外，原始语料库的说话人数量、录音环境及文本主题分布不均，可能导致模型训练的偏差，需通过数据平衡策略加以优化。

常用场景

经典使用场景

在语音技术研究领域，阿根廷西班牙语语音数据集为自动语音识别（ASR）系统的开发与优化提供了重要资源。该数据集整合了多个来源的阿根廷口音语音样本，涵盖了从朗读文本到自然对话的多样化语音场景，特别适合用于训练和评估针对拉丁美洲西班牙语变体的语音识别模型。其标准化的音频与文本对齐格式，为研究者提供了即用型实验数据。

解决学术问题

该数据集有效解决了低资源语言变体在语音技术研究中数据匮乏的核心问题。通过聚合多个权威语料库，它不仅填补了阿根廷西班牙语在ASR研究中的空白，还为方言识别、语音合成等任务提供了基准数据。多源数据的融合特性，使得研究者能够探究口音变异对语音模型性能的影响，推动了语音技术在地域方言场景下的鲁棒性研究。

衍生相关工作

该数据集催生了多项标志性研究，包括基于迁移学习的阿根廷方言ASR系统优化、端到端语音合成模型的区域适应等。Guevara-Rukoz等人关于低资源语音合成的研究直接引用了其子集数据，而Common Voice项目则将其作为评估多语言模型区域性能的重要基准。这些衍生工作共同推动了西班牙语语音技术的分地域精细化发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

列名	描述
UUID	样本唯一标识符
audio	音频文件或路径
text	文本转录
source	原始数据集ID