five

ASR-datasets-ptbr-v1

收藏
Hugging Face2025-09-04 更新2025-09-05 收录
下载链接:
https://huggingface.co/datasets/opedromartins/ASR-datasets-ptbr-v1
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个由多个公开的葡萄牙语(巴西)音频数据集组成的组合数据集,旨在用于自动语音识别(ASR)的训练。它包含了多个子数据集,每个子数据集都有自己的配置名称、特性、大小、下载和总数据量等信息。数据集被组织成训练、验证和测试三个部分,并提供了如何加载和使用这些数据集的代码示例。
创建时间:
2025-09-04
原始信息汇总

数据集概述

基本信息

  • 名称:Datasets de Áudios em Português
  • 语言:葡萄牙语(pt)
  • 许可证:未知
  • 任务类别:自动语音识别(automatic-speech-recognition)
  • 标签:ASR、Speech、Portuguese
  • 规模:1M<n<10M

数据集组成

数据集包含17个子数据集配置:

cetuc

  • 训练集:70,698个样本,11,770,690,172.528字节
  • 验证集:10,100个样本,1,672,422,402.6字节
  • 测试集:20,200个样本,3,292,358,544字节
  • 下载大小:16,268,892,414字节
  • 数据集大小:16,735,471,119.128字节

cml

  • 训练集:34,265个样本,20,718,614,908.07字节
  • 验证集:1,134个样本,622,653,429.704字节
  • 测试集:1,297个样本,672,955,967.66字节
  • 下载大小:14,416,693,947字节
  • 数据集大小:22,014,224,305.434字节

codigo-de-defesa-do-consumidor

  • 训练集:177个样本,115,598,873字节
  • 验证集:26个样本,15,885,067字节
  • 测试集:50个样本,32,084,377字节
  • 下载大小:163,395,609字节
  • 数据集大小:163,568,317字节

common-voice-22

  • 训练集:19,697个样本,577,663,772.058字节
  • 验证集:8,872个样本,273,911,893.68字节
  • 测试集:8,745个样本,276,836,321.935字节
  • 下载大小:1,083,096,352字节
  • 数据集大小:1,128,411,987.6729999字节

constituicao-federal

  • 训练集:878个样本,726,416,746字节
  • 验证集:126个样本,107,323,395字节
  • 测试集:251个样本,200,476,811字节
  • 下载大小:1,031,819,429字节
  • 数据集大小:1,034,216,952字节

coraa-mupe

  • 训练集:276,881个样本,43,074,337,616.954字节
  • 验证集:9,894个样本,899,069,630.872字节
  • 测试集:30,968个样本,3,488,213,598.856字节
  • 下载大小:41,797,941,389字节
  • 数据集大小:47,461,620,846.68201字节

coraa-nurc-sp

  • 训练集:166,971个样本,34,969,174,532.398字节
  • 验证集:3,142个样本,670,050,973.104字节
  • 测试集:7,110个样本,1,445,635,984.73字节
  • 下载大小:27,433,293,493字节
  • 数据集大小:37,084,861,490.232字节

coraa-v1.1

  • 训练集:382,258个样本,62,195,592,221.578字节
  • 验证集:7,522个样本,1,038,744,634.576字节
  • 测试集:12,676个样本,2,393,506,411.512字节
  • 下载大小:66,894,810,728字节
  • 数据集大小:65,627,843,267.666字节

fleurs

  • 训练集:2,793个样本,2,337,501,626.501字节
  • 验证集:386个样本,297,534,890字节
  • 测试集:919个样本,746,473,185字节
  • 下载大小:3,355,807,403字节
  • 数据集大小:3,381,509,701.501字节

lapsbm

  • 训练集:490个样本,72,419,519字节
  • 验证集:70个样本,10,425,674字节
  • 测试集:140个样本,20,938,455字节
  • 下载大小:103,784,374字节
  • 数据集大小:103,783,648字节

mls

  • 训练集:37,533个样本,9,043,239,560.764字节
  • 验证集:826个样本,224,389,373字节
  • 测试集:871个样本,222,282,100字节
  • 下载大小:10,051,313,635字节
  • 数据集大小:9,489,911,033.764字节

sidney

  • 训练集:3,565个样本,807,319,119.56字节
  • 验证集:510个样本,117,170,460字节
  • 测试集:1,018个样本,224,942,630.68字节
  • 下载大小:1,148,164,255字节
  • 数据集大小:1,149,432,210.24字节

tedx

  • 训练集:90,244个样本,33,927,394,756.572字节
  • 验证集:1,013个样本,241,617,938.147字节
  • 测试集:1,020个样本,337,352,235.98字节
  • 下载大小:26,258,408,509字节
  • 数据集大小:34,506,364,930.699字节

tts-portuguese-corpus

  • 训练集:2,536个样本,2,516,491,348.592字节
  • 验证集:363个样本,364,282,161字节
  • 测试集:725个样本,728,285,158字节
  • 下载大小:3,303,140,981字节
  • 数据集大小:3,609,058,667.592字节

voxforge

  • 训练集:532个样本,49,606,644字节
  • 验证集:76个样本,7,360,202字节
  • 测试集:152个样本,14,106,807字节
  • 下载大小:69,265,243字节
  • 数据集大小:71,073,653字节

yodas-granary

  • 训练集:510,396个样本,20,186,799,090.16字节
  • 验证集:72,914个样本,3,002,177,488.366字节
  • 测试集:145,828个样本,5,637,570,543.452字节
  • 下载大小:30,122,224,006字节
  • 数据集大小:28,826,547,121.978字节

数据特征

所有配置包含相同特征:

  • audio_filename:字符串类型,原始音频文件名
  • audio:音频类型,数据集中的音频文件路径/标识符
  • transcription:字符串类型,音频转录文本
  • duration:float64类型,音频时长(秒)

数据来源

数据集整合了多个公开的葡萄牙语(巴西)音频数据集:

  • CETUC:https://igormq.github.io/datasets/
  • CML:https://www.openslr.org/146/
  • Código de Defesa do Consumidor:https://gitlab.com/fb-audio-corpora/codigodefesaconsumidor16k
  • Common Voice 22:https://commonvoice.mozilla.org/pt/datasets
  • Constituição Federal:https://gitlab.com/fb-audio-corpora/constituicao16k
  • CORAA MuPe:https://huggingface.co/datasets/nilc-nlp/CORAA-MUPE-ASR
  • CORAA NURC-SP:https://huggingface.co/datasets/nilc-nlp/CORAA-NURC-SP-Audio-Corpus
  • CORAA v1.1:https://github.com/nilc-nlp/CORAA
  • Fleurs:https://huggingface.co/datasets/google/fleurs
  • LapsBM:https://igormq.github.io/datasets/
  • MLS:https://www.openslr.org/94/
  • Sidney:https://igormq.github.io/datasets/
  • TEDx:https://www.openslr.org/100/
  • TTS Portuguese Corpus:https://github.com/Edresson/TTS-Portuguese-Corpus
  • VoxForge:https://igormq.github.io/datasets/
  • YODAS-Granary:https://huggingface.co/datasets/nvidia/Granary
  • YouTubeCommon-Granary:https://huggingface.co/datasets/nvidia/Granary

许可证说明

每个子数据集保持其原始许可证,用户需自行遵守各数据源的许可条款。

搜集汇总
数据集介绍
main_image_url
构建方式
在葡萄牙语自动语音识别研究领域,该数据集通过系统整合16个公开语音语料库构建而成,涵盖CETUC、Common Voice 22、CORAA等多个权威来源。构建过程严格遵循数据标准化流程,对原始音频数据进行重采样至16kHz统一格式,并保留各数据集的原始划分或采用科学方法进行自动分割。每个样本均包含音频文件、精确转录文本和时长信息,形成超过百万条样本的大规模语音数据集。
使用方法
通过HuggingFace datasets库可便捷访问该数据集,使用get_dataset_config_names()可查看所有可用配置。加载时需指定配置名称(如coraa-v1.1)和目标分割(train/validation/test),支持完整加载或流式读取模式。流式读取特别适用于大规模数据场景,通过iter(ds_stream)实现逐样本处理。研究人员可根据需要组合不同子集,但需注意各子集遵循其原始许可协议,使用前应仔细核查相应条款。
背景与挑战
背景概述
葡萄牙语自动语音识别研究长期面临数据资源匮乏的困境,ASR-datasets-ptbr-v1应运而生。该数据集由多个研究机构联合构建,整合了CETUC、Common Voice、CORAA等16个公开葡萄牙语语音语料库,涵盖法律文本、日常对话、学术演讲等多领域内容。其核心价值在于为巴西葡萄牙语ASR模型训练提供大规模标准化数据支撑,显著提升了语音识别系统在复杂语言环境下的泛化能力,对拉丁美洲语言技术发展具有重要推动作用。
当前挑战
该数据集致力于解决葡萄牙语语音识别中的方言多样性、背景噪声干扰和术语专业性等核心难题。构建过程中面临多重挑战:原始数据来源分散导致格式异构性严重,需统一采样率和音频标准;各子集标注质量参差不齐,需要精细化的文本规范化处理;方言区域差异显著,需平衡不同地域发音特征;法律术语与日常用语混合,增加了语音到文本对齐的复杂度。这些因素共同构成了数据集构建的技术壁垒。
常用场景
经典使用场景
在葡萄牙语语音识别研究领域,该数据集作为基准资源广泛应用于端到端自动语音识别模型的训练与评估。研究者通过其丰富的语音-文本配对样本,能够系统性地构建深度神经网络架构,特别在基于Transformer的声学建模和语言模型融合方面展现出显著价值。数据集涵盖多种方言变体和录音环境,为模型鲁棒性研究提供了重要支撑。
解决学术问题
该数据集有效解决了葡萄牙语(巴西变体)语音资源匮乏的学术困境,为低资源语言语音技术研究提供了标准化实验平台。通过整合多领域语音样本,它支持方言适应性、噪声鲁棒性及跨域泛化等核心问题的探索,显著推进了语音识别模型在韵律特征提取和语义理解方面的理论突破,对计算语言学与语音技术交叉研究具有里程碑意义。
实际应用
在工业应用层面,该数据集为开发葡萄牙语智能助手、呼叫中心语音分析系统及实时转录工具提供了核心训练素材。其高质量标注数据被广泛应用于教育领域的语音学习平台、医疗机构的语音电子病历系统,以及司法部门的庭审记录自动化处理。这些应用显著提升了葡语区数字化服务的语音交互体验与处理效率。
数据集最近研究
最新研究方向
在葡萄牙语语音识别研究领域,ASR-datasets-ptbr-v1数据集正推动多方言适配与低资源场景下的模型优化研究。随着巴西数字经济的蓬勃发展,该数据集为构建鲁棒性强的葡萄牙语语音识别系统提供了关键支撑,尤其在教育科技、智能客服等应用场景中展现出重要价值。当前研究聚焦于跨数据集联合训练策略,通过融合CETUC、CORAA等多个子集的语音特征,显著提升了模型对巴西各地区口音的泛化能力。同时,基于该数据集的自监督学习与半监督学习方法创新,有效缓解了标注数据稀缺问题,为葡萄牙语语音技术的民主化进程奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作