ASR-datasets-ptbr-v1

Hugging Face2025-09-04 更新2025-09-05 收录

下载链接：

https://huggingface.co/datasets/opedromartins/ASR-datasets-ptbr-v1

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个由多个公开的葡萄牙语（巴西）音频数据集组成的组合数据集，旨在用于自动语音识别（ASR）的训练。它包含了多个子数据集，每个子数据集都有自己的配置名称、特性、大小、下载和总数据量等信息。数据集被组织成训练、验证和测试三个部分，并提供了如何加载和使用这些数据集的代码示例。

创建时间：

2025-09-04

原始信息汇总

数据集概述

基本信息

名称：Datasets de Áudios em Português
语言：葡萄牙语（pt）
许可证：未知
任务类别：自动语音识别（automatic-speech-recognition）
标签：ASR、Speech、Portuguese
规模：1M<n<10M

数据集组成

数据集包含17个子数据集配置：

cetuc

训练集：70,698个样本，11,770,690,172.528字节
验证集：10,100个样本，1,672,422,402.6字节
测试集：20,200个样本，3,292,358,544字节
下载大小：16,268,892,414字节
数据集大小：16,735,471,119.128字节

cml

训练集：34,265个样本，20,718,614,908.07字节
验证集：1,134个样本，622,653,429.704字节
测试集：1,297个样本，672,955,967.66字节
下载大小：14,416,693,947字节
数据集大小：22,014,224,305.434字节

codigo-de-defesa-do-consumidor

训练集：177个样本，115,598,873字节
验证集：26个样本，15,885,067字节
测试集：50个样本，32,084,377字节
下载大小：163,395,609字节
数据集大小：163,568,317字节

common-voice-22

训练集：19,697个样本，577,663,772.058字节
验证集：8,872个样本，273,911,893.68字节
测试集：8,745个样本，276,836,321.935字节
下载大小：1,083,096,352字节
数据集大小：1,128,411,987.6729999字节

constituicao-federal

训练集：878个样本，726,416,746字节
验证集：126个样本，107,323,395字节
测试集：251个样本，200,476,811字节
下载大小：1,031,819,429字节
数据集大小：1,034,216,952字节

coraa-mupe

训练集：276,881个样本，43,074,337,616.954字节
验证集：9,894个样本，899,069,630.872字节
测试集：30,968个样本，3,488,213,598.856字节
下载大小：41,797,941,389字节
数据集大小：47,461,620,846.68201字节

coraa-nurc-sp

训练集：166,971个样本，34,969,174,532.398字节
验证集：3,142个样本，670,050,973.104字节
测试集：7,110个样本，1,445,635,984.73字节
下载大小：27,433,293,493字节
数据集大小：37,084,861,490.232字节

coraa-v1.1

训练集：382,258个样本，62,195,592,221.578字节
验证集：7,522个样本，1,038,744,634.576字节
测试集：12,676个样本，2,393,506,411.512字节
下载大小：66,894,810,728字节
数据集大小：65,627,843,267.666字节

fleurs

训练集：2,793个样本，2,337,501,626.501字节
验证集：386个样本，297,534,890字节
测试集：919个样本，746,473,185字节
下载大小：3,355,807,403字节
数据集大小：3,381,509,701.501字节

lapsbm

训练集：490个样本，72,419,519字节
验证集：70个样本，10,425,674字节
测试集：140个样本，20,938,455字节
下载大小：103,784,374字节
数据集大小：103,783,648字节

mls

训练集：37,533个样本，9,043,239,560.764字节
验证集：826个样本，224,389,373字节
测试集：871个样本，222,282,100字节
下载大小：10,051,313,635字节
数据集大小：9,489,911,033.764字节

sidney

训练集：3,565个样本，807,319,119.56字节
验证集：510个样本，117,170,460字节
测试集：1,018个样本，224,942,630.68字节
下载大小：1,148,164,255字节
数据集大小：1,149,432,210.24字节

tedx

训练集：90,244个样本，33,927,394,756.572字节
验证集：1,013个样本，241,617,938.147字节
测试集：1,020个样本，337,352,235.98字节
下载大小：26,258,408,509字节
数据集大小：34,506,364,930.699字节

tts-portuguese-corpus

训练集：2,536个样本，2,516,491,348.592字节
验证集：363个样本，364,282,161字节
测试集：725个样本，728,285,158字节
下载大小：3,303,140,981字节
数据集大小：3,609,058,667.592字节

voxforge

训练集：532个样本，49,606,644字节
验证集：76个样本，7,360,202字节
测试集：152个样本，14,106,807字节
下载大小：69,265,243字节
数据集大小：71,073,653字节

yodas-granary

训练集：510,396个样本，20,186,799,090.16字节
验证集：72,914个样本，3,002,177,488.366字节
测试集：145,828个样本，5,637,570,543.452字节
下载大小：30,122,224,006字节
数据集大小：28,826,547,121.978字节

数据特征

所有配置包含相同特征：

audio_filename：字符串类型，原始音频文件名
audio：音频类型，数据集中的音频文件路径/标识符
transcription：字符串类型，音频转录文本
duration：float64类型，音频时长（秒）

数据来源

数据集整合了多个公开的葡萄牙语（巴西）音频数据集：

CETUC：https://igormq.github.io/datasets/
CML：https://www.openslr.org/146/
Código de Defesa do Consumidor：https://gitlab.com/fb-audio-corpora/codigodefesaconsumidor16k
Common Voice 22：https://commonvoice.mozilla.org/pt/datasets
Constituição Federal：https://gitlab.com/fb-audio-corpora/constituicao16k
CORAA MuPe：https://huggingface.co/datasets/nilc-nlp/CORAA-MUPE-ASR
CORAA NURC-SP：https://huggingface.co/datasets/nilc-nlp/CORAA-NURC-SP-Audio-Corpus
CORAA v1.1：https://github.com/nilc-nlp/CORAA
Fleurs：https://huggingface.co/datasets/google/fleurs
LapsBM：https://igormq.github.io/datasets/
MLS：https://www.openslr.org/94/
Sidney：https://igormq.github.io/datasets/
TEDx：https://www.openslr.org/100/
TTS Portuguese Corpus：https://github.com/Edresson/TTS-Portuguese-Corpus
VoxForge：https://igormq.github.io/datasets/
YODAS-Granary：https://huggingface.co/datasets/nvidia/Granary
YouTubeCommon-Granary：https://huggingface.co/datasets/nvidia/Granary

许可证说明

每个子数据集保持其原始许可证，用户需自行遵守各数据源的许可条款。

搜集汇总

数据集介绍

构建方式

在葡萄牙语自动语音识别研究领域，该数据集通过系统整合16个公开语音语料库构建而成，涵盖CETUC、Common Voice 22、CORAA等多个权威来源。构建过程严格遵循数据标准化流程，对原始音频数据进行重采样至16kHz统一格式，并保留各数据集的原始划分或采用科学方法进行自动分割。每个样本均包含音频文件、精确转录文本和时长信息，形成超过百万条样本的大规模语音数据集。

使用方法

通过HuggingFace datasets库可便捷访问该数据集，使用get_dataset_config_names()可查看所有可用配置。加载时需指定配置名称（如coraa-v1.1）和目标分割（train/validation/test），支持完整加载或流式读取模式。流式读取特别适用于大规模数据场景，通过iter(ds_stream)实现逐样本处理。研究人员可根据需要组合不同子集，但需注意各子集遵循其原始许可协议，使用前应仔细核查相应条款。

背景与挑战

背景概述

葡萄牙语自动语音识别研究长期面临数据资源匮乏的困境，ASR-datasets-ptbr-v1应运而生。该数据集由多个研究机构联合构建，整合了CETUC、Common Voice、CORAA等16个公开葡萄牙语语音语料库，涵盖法律文本、日常对话、学术演讲等多领域内容。其核心价值在于为巴西葡萄牙语ASR模型训练提供大规模标准化数据支撑，显著提升了语音识别系统在复杂语言环境下的泛化能力，对拉丁美洲语言技术发展具有重要推动作用。

当前挑战

该数据集致力于解决葡萄牙语语音识别中的方言多样性、背景噪声干扰和术语专业性等核心难题。构建过程中面临多重挑战：原始数据来源分散导致格式异构性严重，需统一采样率和音频标准；各子集标注质量参差不齐，需要精细化的文本规范化处理；方言区域差异显著，需平衡不同地域发音特征；法律术语与日常用语混合，增加了语音到文本对齐的复杂度。这些因素共同构成了数据集构建的技术壁垒。

常用场景

经典使用场景

在葡萄牙语语音识别研究领域，该数据集作为基准资源广泛应用于端到端自动语音识别模型的训练与评估。研究者通过其丰富的语音-文本配对样本，能够系统性地构建深度神经网络架构，特别在基于Transformer的声学建模和语言模型融合方面展现出显著价值。数据集涵盖多种方言变体和录音环境，为模型鲁棒性研究提供了重要支撑。

解决学术问题

该数据集有效解决了葡萄牙语（巴西变体）语音资源匮乏的学术困境，为低资源语言语音技术研究提供了标准化实验平台。通过整合多领域语音样本，它支持方言适应性、噪声鲁棒性及跨域泛化等核心问题的探索，显著推进了语音识别模型在韵律特征提取和语义理解方面的理论突破，对计算语言学与语音技术交叉研究具有里程碑意义。

实际应用

在工业应用层面，该数据集为开发葡萄牙语智能助手、呼叫中心语音分析系统及实时转录工具提供了核心训练素材。其高质量标注数据被广泛应用于教育领域的语音学习平台、医疗机构的语音电子病历系统，以及司法部门的庭审记录自动化处理。这些应用显著提升了葡语区数字化服务的语音交互体验与处理效率。

数据集最近研究