ASR-datasets-ptbr

Hugging Face2025-09-05 更新2025-09-06 收录

下载链接：

https://huggingface.co/datasets/opedromartins/ASR-datasets-ptbr

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多种葡萄牙语语音语料库，特别适用于自动语音识别（ASR）任务。数据集由多个巴西葡萄牙语公共语音语料库组成，合并为一个数据集，以方便训练和研究。它包括每个数据集的配置、功能、拆分和数据文件的信息。README文件还解释了如何使用Hugging Face Datasets库使用该数据集，并强调尊重每个数据集的原始许可证的重要性。

创建时间：

2025-09-05

原始信息汇总

数据集概述

基本信息

名称: Datasets de Áudios em Português
语言: 葡萄牙语 (pt)
主要任务: 自动语音识别 (ASR)
标签: ASR, Speech, Portuguese
规模: 1M<n<10M
许可证: 未知

数据集组成

包含多个葡萄牙语（巴西）音频数据集，总计2613.48小时音频数据，其中训练集2488.88小时，测试集79.75小时，验证集44.85小时。

子数据集详情

YouTube-Commons-Granary

配置名称: youtube-commons-granary
总时长: 806.54小时
分割: 仅训练集
说话人信息: 无
数据量: 214537个样本
数据集大小: 26120801861.175字节
下载大小: 91287267946字节

CORAA MuPe

配置名称: coraa-mupe
总时长: 365.04小时
分割: 训练集（319.90小时）、测试集（32.90小时）、验证集（12.25小时）
说话人信息: 有
数据量: 训练集276881个样本，验证集9894个样本，测试集30968个样本
数据集大小: 47465365807.68201字节
下载大小: 41797963037字节

CORAA v1.1

配置名称: coraa-v1.1
总时长: 290.53小时
分割: 训练集（273.38小时）、测试集（11.24小时）、验证集（5.91小时）
说话人信息: 无
数据量: 训练集382258个样本，验证集7522个样本，测试集12676个样本
数据集大小: 65627843267.666字节
下载大小: 66894810728字节

YODAS-Granary

配置名称: yodas-granary
总时长: 262.17小时
分割: 仅训练集
说话人信息: 无
数据量: 729138个样本
数据集大小: 30372687418.54字节
下载大小: 30070800786字节

CORAA NURC-SP

配置名称: coraa-nurc-sp
总时长: 239.23小时
分割: 训练集（224.40小时）、测试集（10.23小时）、验证集（4.60小时）
说话人信息: 无
数据量: 训练集166971个样本，验证集3142个样本，测试集7110个样本
数据集大小: 37084861490.232字节
下载大小: 27433293493字节

MLS

配置名称: mls
总时长: 168.35小时
分割: 训练集（160.96小时）、测试集（3.74小时）、验证集（3.64小时）
说话人信息: 有
数据量: 训练集37533个样本，验证集826个样本，测试集871个样本
数据集大小: 9490224873.764字节
下载大小: 10051399800字节

TEDx

配置名称: tedx
总时长: 156.16小时
分割: 训练集（152.80小时）、测试集（1.82小时）、验证集（1.54小时）
说话人信息: 有
数据量: 训练集90244个样本，验证集1013个样本，测试集1020个样本
数据集大小: 34507749085.699字节
下载大小: 26258613039字节

CETUC

配置名称: cetuc
总时长: 144.66小时
分割: 仅训练集
说话人信息: 有
数据量: 100998个样本
数据集大小: 15683545311.276字节
下载大小: 16223646932字节

CML

配置名称: cml
总时长: 85.36小时
分割: 训练集（78.09小时）、测试集（3.68小时）、验证集（3.59小时）
说话人信息: 有
数据量: 训练集34265个样本，验证集1134个样本，测试集1297个样本
数据集大小: 22014517873.434字节
下载大小: 14416811016字节

Common Voice 22

配置名称: common-voice-22
总时长: 51.09小时
分割: 训练集（26.15小时）、测试集（12.90小时）、验证集（12.04小时）
说话人信息: 有
数据量: 训练集22674个样本，验证集9640个样本，测试集9641个样本
数据集大小: 1263924520.664字节
下载大小: 1207634348字节

Fleurs

配置名称: fleurs
总时长: 14.71小时
分割: 训练集（10.18小时）、测试集（3.24小时）、验证集（1.29小时）
说话人信息: 无
数据量: 训练集2793个样本，验证集386个样本，测试集919个样本
数据集大小: 3381509701.501字节
下载大小: 3355807403字节

TTS Portuguese Corpus

配置名称: tts-portuguese-corpus
总时长: 10.48小时
分割: 仅训练集
说话人信息: 无
数据量: 3624个样本
数据集大小: 3206466857.192字节
下载大小: 3298225717字节

Constituição Federal

配置名称: constituicao-federal
总时长: 8.97小时
分割: 仅训练集
说话人信息: 无
数据量: 1255个样本
数据集大小: 1046116434.215字节
下载大小: 1031691001字节

Sidney

配置名称: sidney
总时长: 7.28小时
分割: 仅训练集
说话人信息: 有
数据量: 5093个样本
数据集大小: 1126762543.78字节
下载大小: 1145725002字节

Código de Defesa do Consumidor

配置名称: codigo-de-defesa-do-consumidor
总时长: 1.42小时
分割: 仅训练集
说话人信息: 无
数据量: 253个样本
数据集大小: 163568316.0字节
下载大小: 163344293字节

LapsBM

配置名称: lapsbm
总时长: 0.90小时
分割: 仅训练集
说话人信息: 有
数据量: 700个样本
数据集大小: 103794148.0字节
下载大小: 103780948字节

VoxForge

配置名称: voxforge
总时长: 0.62小时
分割: 仅训练集
说话人信息: 有
数据量: 760个样本
数据集大小: 71093523.0字节
下载大小: 68849090字节

数据结构

每个样本包含以下字段：

audio_filename: 原始文件名
speaker: 说话人标识符（仅在原始数据集提供时存在）
audio: 音频内容
transcription: 音频转录文本
duration: 音频时长（秒）

使用方式

可通过Hugging Face Datasets库加载使用，支持按配置名称加载特定数据集和流式加载模式。

许可证信息

每个子数据集保持其原始许可证，用户需自行验证并遵守各语料库的使用条款。

搜集汇总

数据集介绍

构建方式

在葡萄牙语语音识别研究领域，ASR-datasets-ptbr数据集通过系统整合17个独立语料库构建而成，涵盖CETUC、Common Voice 22、CORAA等多个权威来源。采用标准化数据处理流程，每个子集保留原始分割结构，通过统一字段映射确保数据一致性，所有音频样本均配有精确文本转录和元数据标注。

特点

该数据集呈现显著的多样性与规模优势，总时长超过2600小时，包含带说话人标识的对话样本和无标识的朗读语料。语音内容覆盖日常对话、法律文本、学术演讲等多领域场景，采样频率和音频格式经过统一规范化处理，为葡萄牙语语音模型训练提供高覆盖度的声学语言特征。

使用方法

研究者可通过Hugging Face Datasets库按需加载特定子集，支持流式传输和全量加载两种模式。使用时可指定config_name参数选择子数据集，通过split参数控制训练验证测试分割，音频数据以数组格式直接载入，配套转录文本可直接用于端到端语音识别模型训练。

背景与挑战

背景概述

葡萄牙语自动语音识别研究长期面临数据资源匮乏的困境，特别是在巴西葡萄牙语变种领域。ASR-datasets-ptbr数据集由多个研究机构联合构建，包括NILC-NLP、OpenSLR等知名组织，致力于整合分散的语音语料资源。该数据集通过系统性地汇集CETUC、CORAA、Common Voice等16个子数据集，构建了超过2600小时的高质量语音-文本配对语料，显著提升了巴西葡萄牙语ASR模型的训练效果，为拉丁美洲语言技术发展提供了重要基础设施。

当前挑战

该数据集主要应对巴西葡萄牙语语音识别中的方言多样性、音位变体复杂性以及噪声环境下的语音处理等核心挑战。在构建过程中面临多重技术难题：原始数据来源异构导致格式标准化困难，语音质量参差不齐需进行统一预处理，方言标注一致性难以保证，以及不同子数据集许可协议兼容性管理等。此外，说话人身份信息的缺失与转录文本的标准化处理也是需要持续优化的关键环节。

常用场景

实际应用

在实际应用层面，该数据集支撑了巴西葡萄牙语智能语音助手的开发，广泛应用于客服自动化、教育科技和媒体转录等领域。其丰富的语音变体数据使得训练的模型能够适应不同地区口音，为金融、电信和公共服务行业提供可靠的语音交互解决方案。数据集还支持司法和政府机构的会议记录自动化，提升公共服务效率。

衍生相关工作

基于该数据集衍生的经典工作包括端到端葡萄牙语ASR系统开发、多方言语音识别模型优化以及语音数据增强技术研究。研究者利用其多源特性提出了跨语料库的域适应方法，显著提升了模型在真实场景的鲁棒性。该数据集还催生了葡萄牙语语音识别基准测试平台，为后续研究提供了标准化评估框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集