five

opedromartins/ASR-datasets-ptbr-clean-transcriptions

收藏
Hugging Face2026-03-27 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/opedromartins/ASR-datasets-ptbr-clean-transcriptions
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: - config_name: cetuc features: - name: audio_filename dtype: large_string - name: transcription dtype: large_string - name: duration dtype: float64 splits: - name: train num_bytes: 10008186 num_examples: 100998 download_size: 756001 dataset_size: 10008186 - config_name: cml features: - name: audio_filename dtype: large_string - name: transcription dtype: large_string - name: duration dtype: float64 splits: - name: train num_bytes: 5307733 num_examples: 34265 - name: validation num_bytes: 131319 num_examples: 1134 - name: test num_bytes: 142564 num_examples: 1297 download_size: 3194431 dataset_size: 5581616 - config_name: codigo-de-defesa-do-consumidor features: - name: audio_filename dtype: large_string - name: transcription dtype: large_string - name: duration dtype: float64 splits: - name: train num_bytes: 82681 num_examples: 253 download_size: 40215 dataset_size: 82681 - config_name: common-voice-22 features: - name: audio_filename dtype: large_string - name: transcription dtype: large_string - name: duration dtype: float64 splits: - name: train num_bytes: 2095472 num_examples: 22923 - name: validation num_bytes: 888016 num_examples: 9640 - name: test num_bytes: 891070 num_examples: 9641 download_size: 1752624 dataset_size: 3874558 - config_name: constituicao-federal features: - name: audio_filename dtype: large_string - name: transcription dtype: large_string - name: duration dtype: float64 splits: - name: train num_bytes: 504320 num_examples: 1255 download_size: 225098 dataset_size: 504320 - config_name: coraa-mupe features: - name: audio_filename dtype: large_string - name: transcription dtype: large_string - name: duration dtype: float64 splits: - name: train num_bytes: 34182009 num_examples: 276881 - name: validation num_bytes: 1256606 num_examples: 9894 - name: test num_bytes: 3752767 num_examples: 30968 download_size: 19432504 dataset_size: 39191382 - config_name: coraa-nurc-sp features: - name: audio_filename dtype: large_string - name: transcription dtype: large_string - name: duration dtype: float64 splits: - name: train num_bytes: 21067063 num_examples: 166971 - name: validation num_bytes: 409850 num_examples: 3142 - name: test num_bytes: 924437 num_examples: 7110 download_size: 10650618 dataset_size: 22401350 - config_name: coraa-v1.1 features: - name: audio_filename dtype: large_string - name: transcription dtype: large_string - name: duration dtype: float64 splits: - name: train num_bytes: 29153310 num_examples: 382258 - name: validation num_bytes: 598350 num_examples: 7522 - name: test num_bytes: 1068879 num_examples: 12676 download_size: 13155710 dataset_size: 30820539 - config_name: fleurs features: - name: audio_filename dtype: large_string - name: transcription dtype: large_string - name: duration dtype: float64 splits: - name: train num_bytes: 528023 num_examples: 2793 - name: validation num_bytes: 72516 num_examples: 386 - name: test num_bytes: 179657 num_examples: 919 download_size: 296098 dataset_size: 780196 - config_name: lapsbm features: - name: audio_filename dtype: large_string - name: transcription dtype: large_string - name: duration dtype: float64 splits: - name: train num_bytes: 70575 num_examples: 700 download_size: 38483 dataset_size: 70575 - config_name: mls features: - name: audio_filename dtype: large_string - name: transcription dtype: large_string - name: duration dtype: float64 splits: - name: train num_bytes: 8967180 num_examples: 37533 - name: validation num_bytes: 204946 num_examples: 826 - name: test num_bytes: 222567 num_examples: 871 download_size: 5268366 dataset_size: 9394693 - config_name: sidney features: - name: audio_filename dtype: large_string - name: transcription dtype: large_string - name: duration dtype: float64 splits: - name: train num_bytes: 376465 num_examples: 5093 download_size: 136281 dataset_size: 376465 - config_name: tedx features: - name: audio_filename dtype: large_string - name: transcription dtype: large_string - name: duration dtype: float64 splits: - name: train num_bytes: 12445416 num_examples: 90244 - name: validation num_bytes: 130663 num_examples: 1013 - name: test num_bytes: 151014 num_examples: 1020 download_size: 5866190 dataset_size: 12727093 - config_name: tts-portuguese-corpus features: - name: audio_filename dtype: large_string - name: transcription dtype: large_string - name: duration dtype: float64 splits: - name: train num_bytes: 589441 num_examples: 3624 download_size: 341678 dataset_size: 589441 - config_name: voxforge features: - name: audio_filename dtype: large_string - name: transcription dtype: large_string - name: duration dtype: float64 splits: - name: train num_bytes: 62639 num_examples: 760 download_size: 15039 dataset_size: 62639 - config_name: yodas-granary features: - name: audio_filename dtype: large_string - name: transcription dtype: large_string - name: duration dtype: float64 splits: - name: train num_bytes: 1170747189 num_examples: 6627902 download_size: 520897709 dataset_size: 1170747189 - config_name: youtube-commons-granary features: - name: audio_filename dtype: large_string - name: transcription dtype: large_string - name: duration dtype: float64 splits: - name: train num_bytes: 51609176 num_examples: 214537 download_size: 30828050 dataset_size: 51609176 configs: - config_name: cetuc data_files: - split: train path: cetuc/train-* - config_name: cml data_files: - split: train path: cml/train-* - split: validation path: cml/validation-* - split: test path: cml/test-* - config_name: codigo-de-defesa-do-consumidor data_files: - split: train path: codigo-de-defesa-do-consumidor/train-* - config_name: common-voice-22 data_files: - split: train path: common-voice-22/train-* - split: validation path: common-voice-22/validation-* - split: test path: common-voice-22/test-* - config_name: constituicao-federal data_files: - split: train path: constituicao-federal/train-* - config_name: coraa-mupe data_files: - split: train path: coraa-mupe/train-* - split: validation path: coraa-mupe/validation-* - split: test path: coraa-mupe/test-* - config_name: coraa-nurc-sp data_files: - split: train path: coraa-nurc-sp/train-* - split: validation path: coraa-nurc-sp/validation-* - split: test path: coraa-nurc-sp/test-* - config_name: coraa-v1.1 data_files: - split: train path: coraa-v1.1/train-* - split: validation path: coraa-v1.1/validation-* - split: test path: coraa-v1.1/test-* - config_name: fleurs data_files: - split: train path: fleurs/train-* - split: validation path: fleurs/validation-* - split: test path: fleurs/test-* - config_name: lapsbm data_files: - split: train path: lapsbm/train-* - config_name: mls data_files: - split: train path: mls/train-* - split: validation path: mls/validation-* - split: test path: mls/test-* - config_name: sidney data_files: - split: train path: sidney/train-* - config_name: tedx data_files: - split: train path: tedx/train-* - split: validation path: tedx/validation-* - split: test path: tedx/test-* - config_name: tts-portuguese-corpus data_files: - split: train path: tts-portuguese-corpus/train-* - config_name: voxforge data_files: - split: train path: voxforge/train-* - config_name: yodas-granary data_files: - split: train path: yodas-granary/train-* - config_name: youtube-commons-granary data_files: - split: train path: youtube-commons-granary/train-* ---

数据集信息: - 配置名称:cetuc 特征字段: - 名称:音频文件名(audio_filename) 数据类型:大字符串(large_string) - 名称:转录文本(transcription) 数据类型:大字符串 - 名称:时长(duration) 数据类型:float64 数据划分: - 划分名称:训练集 字节数:10008186 样本数:100998 下载大小:756001 数据集总大小:10008186 - 配置名称:cml 特征字段: - 名称:音频文件名 数据类型:大字符串 - 名称:转录文本 数据类型:大字符串 - 名称:时长 数据类型:float64 数据划分: - 划分名称:训练集 字节数:5307733 样本数:34265 - 划分名称:验证集 字节数:131319 样本数:1134 - 划分名称:测试集 字节数:142564 样本数:1297 下载大小:3194431 数据集总大小:5581616 - 配置名称:消费者保护法典(codigo-de-defesa-do-consumidor) 特征字段: - 名称:音频文件名 数据类型:大字符串 - 名称:转录文本 数据类型:大字符串 - 名称:时长 数据类型:float64 数据划分: - 划分名称:训练集 字节数:82681 样本数:253 下载大小:40215 数据集总大小:82681 - 配置名称:通用语音22(Common Voice 22) 特征字段: - 名称:音频文件名 数据类型:大字符串 - 名称:转录文本 数据类型:大字符串 - 名称:时长 数据类型:float64 数据划分: - 划分名称:训练集 字节数:2095472 样本数:22923 - 划分名称:验证集 字节数:888016 样本数:9640 - 划分名称:测试集 字节数:891070 样本数:9641 下载大小:1752624 数据集总大小:3874558 - 配置名称:联邦宪法(constituicao-federal) 特征字段: - 名称:音频文件名 数据类型:大字符串 - 名称:转录文本 数据类型:大字符串 - 名称:时长 数据类型:float64 数据划分: - 划分名称:训练集 字节数:504320 样本数:1255 下载大小:225098 数据集总大小:504320 - 配置名称:coraa-mupe 特征字段: - 名称:音频文件名 数据类型:大字符串 - 名称:转录文本 数据类型:大字符串 - 名称:时长 数据类型:float64 数据划分: - 划分名称:训练集 字节数:34182009 样本数:276881 - 划分名称:验证集 字节数:1256606 样本数:9894 - 划分名称:测试集 字节数:3752767 样本数:30968 下载大小:19432504 数据集总大小:39191382 - 配置名称:coraa-nurc-sp 特征字段: - 名称:音频文件名 数据类型:大字符串 - 名称:转录文本 数据类型:大字符串 - 名称:时长 数据类型:float64 数据划分: - 划分名称:训练集 字节数:21067063 样本数:166971 - 划分名称:验证集 字节数:409850 样本数:3142 - 划分名称:测试集 字节数:924437 样本数:7110 下载大小:10650618 数据集总大小:22401350 - 配置名称:coraa-v1.1 特征字段: - 名称:音频文件名 数据类型:大字符串 - 名称:转录文本 数据类型:大字符串 - 名称:时长 数据类型:float64 数据划分: - 划分名称:训练集 字节数:29153310 样本数:382258 - 划分名称:验证集 字节数:598350 样本数:7522 - 划分名称:测试集 字节数:1068879 样本数:12676 下载大小:13155710 数据集总大小:30820539 - 配置名称:FLEURS多语言语音数据集(FLEURS) 特征字段: - 名称:音频文件名 数据类型:大字符串 - 名称:转录文本 数据类型:大字符串 - 名称:时长 数据类型:float64 数据划分: - 划分名称:训练集 字节数:528023 样本数:2793 - 划分名称:验证集 字节数:72516 样本数:386 - 划分名称:测试集 字节数:179657 样本数:919 下载大小:296098 数据集总大小:780196 - 配置名称:lapsbm 特征字段: - 名称:音频文件名 数据类型:大字符串 - 名称:转录文本 数据类型:大字符串 - 名称:时长 数据类型:float64 数据划分: - 划分名称:训练集 字节数:70575 样本数:700 下载大小:38483 数据集总大小:70575 - 配置名称:多语言LibriSpeech(mls) 特征字段: - 名称:音频文件名 数据类型:大字符串 - 名称:转录文本 数据类型:大字符串 - 名称:时长 数据类型:float64 数据划分: - 划分名称:训练集 字节数:8967180 样本数:37533 - 划分名称:验证集 字节数:204946 样本数:826 - 划分名称:测试集 字节数:222567 样本数:871 下载大小:5268366 数据集总大小:9394693 - 配置名称:sidney 特征字段: - 名称:音频文件名 数据类型:大字符串 - 名称:转录文本 数据类型:大字符串 - 名称:时长 数据类型:float64 数据划分: - 划分名称:训练集 字节数:376465 样本数:5093 下载大小:136281 数据集总大小:376465 - 配置名称:TEDx演讲数据集(tedx) 特征字段: - 名称:音频文件名 数据类型:大字符串 - 名称:转录文本 数据类型:大字符串 - 名称:时长 数据类型:float64 数据划分: - 划分名称:训练集 字节数:12445416 样本数:90244 - 划分名称:验证集 字节数:130663 样本数:1013 - 划分名称:测试集 字节数:151014 样本数:1020 下载大小:5866190 数据集总大小:12727093 - 配置名称:葡萄牙语文本转语音语料库(tts-portuguese-corpus) 特征字段: - 名称:音频文件名 数据类型:大字符串 - 名称:转录文本 数据类型:大字符串 - 名称:时长 数据类型:float64 数据划分: - 划分名称:训练集 字节数:589441 样本数:3624 下载大小:341678 数据集总大小:589441 - 配置名称:VoxForge语音语料库(voxforge) 特征字段: - 名称:音频文件名 数据类型:大字符串 - 名称:转录文本 数据类型:大字符串 - 名称:时长 数据类型:float64 数据划分: - 划分名称:训练集 字节数:62639 样本数:760 下载大小:15039 数据集总大小:62639 - 配置名称:yodas-granary 特征字段: - 名称:音频文件名 数据类型:大字符串 - 名称:转录文本 数据类型:大字符串 - 名称:时长 数据类型:float64 数据划分: - 划分名称:训练集 字节数:1170747189 样本数:6627902 下载大小:520897709 数据集总大小:1170747189 - 配置名称:youtube-commons-granary 特征字段: - 名称:音频文件名 数据类型:大字符串 - 名称:转录文本 数据类型:大字符串 - 名称:时长 数据类型:float64 数据划分: - 划分名称:训练集 字节数:51609176 样本数:214537 下载大小:30828050 数据集总大小:51609176 配置项: - 配置名称:cetuc 数据文件: - 划分集:训练集 路径:cetuc/train-* - 配置名称:cml 数据文件: - 划分集:训练集 路径:cml/train-* - 划分集:验证集 路径:cml/validation-* - 划分集:测试集 路径:cml/test-* - 配置名称:消费者保护法典(codigo-de-defesa-do-consumidor) 数据文件: - 划分集:训练集 路径:codigo-de-defesa-do-consumidor/train-* - 配置名称:通用语音22(Common Voice 22) 数据文件: - 划分集:训练集 路径:common-voice-22/train-* - 划分集:验证集 路径:common-voice-22/validation-* - 划分集:测试集 路径:common-voice-22/test-* - 配置名称:联邦宪法(constituicao-federal) 数据文件: - 划分集:训练集 路径:constituicao-federal/train-* - 配置名称:coraa-mupe 数据文件: - 划分集:训练集 路径:coraa-mupe/train-* - 划分集:验证集 路径:coraa-mupe/validation-* - 划分集:测试集 路径:coraa-mupe/test-* - 配置名称:coraa-nurc-sp 数据文件: - 划分集:训练集 路径:coraa-nurc-sp/train-* - 划分集:验证集 路径:coraa-nurc-sp/validation-* - 划分集:测试集 路径:coraa-nurc-sp/test-* - 配置名称:coraa-v1.1 数据文件: - 划分集:训练集 路径:coraa-v1.1/train-* - 划分集:验证集 路径:coraa-v1.1/validation-* - 划分集:测试集 路径:coraa-v1.1/test-* - 配置名称:FLEURS多语言语音数据集(FLEURS) 数据文件: - 划分集:训练集 路径:fleurs/train-* - 划分集:验证集 路径:fleurs/validation-* - 划分集:测试集 路径:fleurs/test-* - 配置名称:lapsbm 数据文件: - 划分集:训练集 路径:lapsbm/train-* - 配置名称:多语言LibriSpeech(mls) 数据文件: - 划分集:训练集 路径:mls/train-* - 划分集:验证集 路径:mls/validation-* - 划分集:测试集 路径:mls/test-* - 配置名称:sidney 数据文件: - 划分集:训练集 路径:sidney/train-* - 配置名称:TEDx演讲数据集(tedx) 数据文件: - 划分集:训练集 路径:tedx/train-* - 划分集:验证集 路径:tedx/validation-* - 划分集:测试集 路径:tedx/test-* - 配置名称:葡萄牙语文本转语音语料库(tts-portuguese-corpus) 数据文件: - 划分集:训练集 路径:tts-portuguese-corpus/train-* - 配置名称:VoxForge语音语料库(voxforge) 数据文件: - 划分集:训练集 路径:voxforge/train-* - 配置名称:yodas-granary 数据文件: - 划分集:训练集 路径:yodas-granary/train-* - 配置名称:youtube-commons-granary 数据文件: - 划分集:训练集 路径:youtube-commons-granary/train-*
提供机构:
opedromartins
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作