opedromartins/ASR-datasets-ptbr-clean-transcriptions
收藏Hugging Face2026-03-27 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/opedromartins/ASR-datasets-ptbr-clean-transcriptions
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: cetuc
features:
- name: audio_filename
dtype: large_string
- name: transcription
dtype: large_string
- name: duration
dtype: float64
splits:
- name: train
num_bytes: 10008186
num_examples: 100998
download_size: 756001
dataset_size: 10008186
- config_name: cml
features:
- name: audio_filename
dtype: large_string
- name: transcription
dtype: large_string
- name: duration
dtype: float64
splits:
- name: train
num_bytes: 5307733
num_examples: 34265
- name: validation
num_bytes: 131319
num_examples: 1134
- name: test
num_bytes: 142564
num_examples: 1297
download_size: 3194431
dataset_size: 5581616
- config_name: codigo-de-defesa-do-consumidor
features:
- name: audio_filename
dtype: large_string
- name: transcription
dtype: large_string
- name: duration
dtype: float64
splits:
- name: train
num_bytes: 82681
num_examples: 253
download_size: 40215
dataset_size: 82681
- config_name: common-voice-22
features:
- name: audio_filename
dtype: large_string
- name: transcription
dtype: large_string
- name: duration
dtype: float64
splits:
- name: train
num_bytes: 2095472
num_examples: 22923
- name: validation
num_bytes: 888016
num_examples: 9640
- name: test
num_bytes: 891070
num_examples: 9641
download_size: 1752624
dataset_size: 3874558
- config_name: constituicao-federal
features:
- name: audio_filename
dtype: large_string
- name: transcription
dtype: large_string
- name: duration
dtype: float64
splits:
- name: train
num_bytes: 504320
num_examples: 1255
download_size: 225098
dataset_size: 504320
- config_name: coraa-mupe
features:
- name: audio_filename
dtype: large_string
- name: transcription
dtype: large_string
- name: duration
dtype: float64
splits:
- name: train
num_bytes: 34182009
num_examples: 276881
- name: validation
num_bytes: 1256606
num_examples: 9894
- name: test
num_bytes: 3752767
num_examples: 30968
download_size: 19432504
dataset_size: 39191382
- config_name: coraa-nurc-sp
features:
- name: audio_filename
dtype: large_string
- name: transcription
dtype: large_string
- name: duration
dtype: float64
splits:
- name: train
num_bytes: 21067063
num_examples: 166971
- name: validation
num_bytes: 409850
num_examples: 3142
- name: test
num_bytes: 924437
num_examples: 7110
download_size: 10650618
dataset_size: 22401350
- config_name: coraa-v1.1
features:
- name: audio_filename
dtype: large_string
- name: transcription
dtype: large_string
- name: duration
dtype: float64
splits:
- name: train
num_bytes: 29153310
num_examples: 382258
- name: validation
num_bytes: 598350
num_examples: 7522
- name: test
num_bytes: 1068879
num_examples: 12676
download_size: 13155710
dataset_size: 30820539
- config_name: fleurs
features:
- name: audio_filename
dtype: large_string
- name: transcription
dtype: large_string
- name: duration
dtype: float64
splits:
- name: train
num_bytes: 528023
num_examples: 2793
- name: validation
num_bytes: 72516
num_examples: 386
- name: test
num_bytes: 179657
num_examples: 919
download_size: 296098
dataset_size: 780196
- config_name: lapsbm
features:
- name: audio_filename
dtype: large_string
- name: transcription
dtype: large_string
- name: duration
dtype: float64
splits:
- name: train
num_bytes: 70575
num_examples: 700
download_size: 38483
dataset_size: 70575
- config_name: mls
features:
- name: audio_filename
dtype: large_string
- name: transcription
dtype: large_string
- name: duration
dtype: float64
splits:
- name: train
num_bytes: 8967180
num_examples: 37533
- name: validation
num_bytes: 204946
num_examples: 826
- name: test
num_bytes: 222567
num_examples: 871
download_size: 5268366
dataset_size: 9394693
- config_name: sidney
features:
- name: audio_filename
dtype: large_string
- name: transcription
dtype: large_string
- name: duration
dtype: float64
splits:
- name: train
num_bytes: 376465
num_examples: 5093
download_size: 136281
dataset_size: 376465
- config_name: tedx
features:
- name: audio_filename
dtype: large_string
- name: transcription
dtype: large_string
- name: duration
dtype: float64
splits:
- name: train
num_bytes: 12445416
num_examples: 90244
- name: validation
num_bytes: 130663
num_examples: 1013
- name: test
num_bytes: 151014
num_examples: 1020
download_size: 5866190
dataset_size: 12727093
- config_name: tts-portuguese-corpus
features:
- name: audio_filename
dtype: large_string
- name: transcription
dtype: large_string
- name: duration
dtype: float64
splits:
- name: train
num_bytes: 589441
num_examples: 3624
download_size: 341678
dataset_size: 589441
- config_name: voxforge
features:
- name: audio_filename
dtype: large_string
- name: transcription
dtype: large_string
- name: duration
dtype: float64
splits:
- name: train
num_bytes: 62639
num_examples: 760
download_size: 15039
dataset_size: 62639
- config_name: yodas-granary
features:
- name: audio_filename
dtype: large_string
- name: transcription
dtype: large_string
- name: duration
dtype: float64
splits:
- name: train
num_bytes: 1170747189
num_examples: 6627902
download_size: 520897709
dataset_size: 1170747189
- config_name: youtube-commons-granary
features:
- name: audio_filename
dtype: large_string
- name: transcription
dtype: large_string
- name: duration
dtype: float64
splits:
- name: train
num_bytes: 51609176
num_examples: 214537
download_size: 30828050
dataset_size: 51609176
configs:
- config_name: cetuc
data_files:
- split: train
path: cetuc/train-*
- config_name: cml
data_files:
- split: train
path: cml/train-*
- split: validation
path: cml/validation-*
- split: test
path: cml/test-*
- config_name: codigo-de-defesa-do-consumidor
data_files:
- split: train
path: codigo-de-defesa-do-consumidor/train-*
- config_name: common-voice-22
data_files:
- split: train
path: common-voice-22/train-*
- split: validation
path: common-voice-22/validation-*
- split: test
path: common-voice-22/test-*
- config_name: constituicao-federal
data_files:
- split: train
path: constituicao-federal/train-*
- config_name: coraa-mupe
data_files:
- split: train
path: coraa-mupe/train-*
- split: validation
path: coraa-mupe/validation-*
- split: test
path: coraa-mupe/test-*
- config_name: coraa-nurc-sp
data_files:
- split: train
path: coraa-nurc-sp/train-*
- split: validation
path: coraa-nurc-sp/validation-*
- split: test
path: coraa-nurc-sp/test-*
- config_name: coraa-v1.1
data_files:
- split: train
path: coraa-v1.1/train-*
- split: validation
path: coraa-v1.1/validation-*
- split: test
path: coraa-v1.1/test-*
- config_name: fleurs
data_files:
- split: train
path: fleurs/train-*
- split: validation
path: fleurs/validation-*
- split: test
path: fleurs/test-*
- config_name: lapsbm
data_files:
- split: train
path: lapsbm/train-*
- config_name: mls
data_files:
- split: train
path: mls/train-*
- split: validation
path: mls/validation-*
- split: test
path: mls/test-*
- config_name: sidney
data_files:
- split: train
path: sidney/train-*
- config_name: tedx
data_files:
- split: train
path: tedx/train-*
- split: validation
path: tedx/validation-*
- split: test
path: tedx/test-*
- config_name: tts-portuguese-corpus
data_files:
- split: train
path: tts-portuguese-corpus/train-*
- config_name: voxforge
data_files:
- split: train
path: voxforge/train-*
- config_name: yodas-granary
data_files:
- split: train
path: yodas-granary/train-*
- config_name: youtube-commons-granary
data_files:
- split: train
path: youtube-commons-granary/train-*
---
数据集信息:
- 配置名称:cetuc
特征字段:
- 名称:音频文件名(audio_filename)
数据类型:大字符串(large_string)
- 名称:转录文本(transcription)
数据类型:大字符串
- 名称:时长(duration)
数据类型:float64
数据划分:
- 划分名称:训练集
字节数:10008186
样本数:100998
下载大小:756001
数据集总大小:10008186
- 配置名称:cml
特征字段:
- 名称:音频文件名
数据类型:大字符串
- 名称:转录文本
数据类型:大字符串
- 名称:时长
数据类型:float64
数据划分:
- 划分名称:训练集
字节数:5307733
样本数:34265
- 划分名称:验证集
字节数:131319
样本数:1134
- 划分名称:测试集
字节数:142564
样本数:1297
下载大小:3194431
数据集总大小:5581616
- 配置名称:消费者保护法典(codigo-de-defesa-do-consumidor)
特征字段:
- 名称:音频文件名
数据类型:大字符串
- 名称:转录文本
数据类型:大字符串
- 名称:时长
数据类型:float64
数据划分:
- 划分名称:训练集
字节数:82681
样本数:253
下载大小:40215
数据集总大小:82681
- 配置名称:通用语音22(Common Voice 22)
特征字段:
- 名称:音频文件名
数据类型:大字符串
- 名称:转录文本
数据类型:大字符串
- 名称:时长
数据类型:float64
数据划分:
- 划分名称:训练集
字节数:2095472
样本数:22923
- 划分名称:验证集
字节数:888016
样本数:9640
- 划分名称:测试集
字节数:891070
样本数:9641
下载大小:1752624
数据集总大小:3874558
- 配置名称:联邦宪法(constituicao-federal)
特征字段:
- 名称:音频文件名
数据类型:大字符串
- 名称:转录文本
数据类型:大字符串
- 名称:时长
数据类型:float64
数据划分:
- 划分名称:训练集
字节数:504320
样本数:1255
下载大小:225098
数据集总大小:504320
- 配置名称:coraa-mupe
特征字段:
- 名称:音频文件名
数据类型:大字符串
- 名称:转录文本
数据类型:大字符串
- 名称:时长
数据类型:float64
数据划分:
- 划分名称:训练集
字节数:34182009
样本数:276881
- 划分名称:验证集
字节数:1256606
样本数:9894
- 划分名称:测试集
字节数:3752767
样本数:30968
下载大小:19432504
数据集总大小:39191382
- 配置名称:coraa-nurc-sp
特征字段:
- 名称:音频文件名
数据类型:大字符串
- 名称:转录文本
数据类型:大字符串
- 名称:时长
数据类型:float64
数据划分:
- 划分名称:训练集
字节数:21067063
样本数:166971
- 划分名称:验证集
字节数:409850
样本数:3142
- 划分名称:测试集
字节数:924437
样本数:7110
下载大小:10650618
数据集总大小:22401350
- 配置名称:coraa-v1.1
特征字段:
- 名称:音频文件名
数据类型:大字符串
- 名称:转录文本
数据类型:大字符串
- 名称:时长
数据类型:float64
数据划分:
- 划分名称:训练集
字节数:29153310
样本数:382258
- 划分名称:验证集
字节数:598350
样本数:7522
- 划分名称:测试集
字节数:1068879
样本数:12676
下载大小:13155710
数据集总大小:30820539
- 配置名称:FLEURS多语言语音数据集(FLEURS)
特征字段:
- 名称:音频文件名
数据类型:大字符串
- 名称:转录文本
数据类型:大字符串
- 名称:时长
数据类型:float64
数据划分:
- 划分名称:训练集
字节数:528023
样本数:2793
- 划分名称:验证集
字节数:72516
样本数:386
- 划分名称:测试集
字节数:179657
样本数:919
下载大小:296098
数据集总大小:780196
- 配置名称:lapsbm
特征字段:
- 名称:音频文件名
数据类型:大字符串
- 名称:转录文本
数据类型:大字符串
- 名称:时长
数据类型:float64
数据划分:
- 划分名称:训练集
字节数:70575
样本数:700
下载大小:38483
数据集总大小:70575
- 配置名称:多语言LibriSpeech(mls)
特征字段:
- 名称:音频文件名
数据类型:大字符串
- 名称:转录文本
数据类型:大字符串
- 名称:时长
数据类型:float64
数据划分:
- 划分名称:训练集
字节数:8967180
样本数:37533
- 划分名称:验证集
字节数:204946
样本数:826
- 划分名称:测试集
字节数:222567
样本数:871
下载大小:5268366
数据集总大小:9394693
- 配置名称:sidney
特征字段:
- 名称:音频文件名
数据类型:大字符串
- 名称:转录文本
数据类型:大字符串
- 名称:时长
数据类型:float64
数据划分:
- 划分名称:训练集
字节数:376465
样本数:5093
下载大小:136281
数据集总大小:376465
- 配置名称:TEDx演讲数据集(tedx)
特征字段:
- 名称:音频文件名
数据类型:大字符串
- 名称:转录文本
数据类型:大字符串
- 名称:时长
数据类型:float64
数据划分:
- 划分名称:训练集
字节数:12445416
样本数:90244
- 划分名称:验证集
字节数:130663
样本数:1013
- 划分名称:测试集
字节数:151014
样本数:1020
下载大小:5866190
数据集总大小:12727093
- 配置名称:葡萄牙语文本转语音语料库(tts-portuguese-corpus)
特征字段:
- 名称:音频文件名
数据类型:大字符串
- 名称:转录文本
数据类型:大字符串
- 名称:时长
数据类型:float64
数据划分:
- 划分名称:训练集
字节数:589441
样本数:3624
下载大小:341678
数据集总大小:589441
- 配置名称:VoxForge语音语料库(voxforge)
特征字段:
- 名称:音频文件名
数据类型:大字符串
- 名称:转录文本
数据类型:大字符串
- 名称:时长
数据类型:float64
数据划分:
- 划分名称:训练集
字节数:62639
样本数:760
下载大小:15039
数据集总大小:62639
- 配置名称:yodas-granary
特征字段:
- 名称:音频文件名
数据类型:大字符串
- 名称:转录文本
数据类型:大字符串
- 名称:时长
数据类型:float64
数据划分:
- 划分名称:训练集
字节数:1170747189
样本数:6627902
下载大小:520897709
数据集总大小:1170747189
- 配置名称:youtube-commons-granary
特征字段:
- 名称:音频文件名
数据类型:大字符串
- 名称:转录文本
数据类型:大字符串
- 名称:时长
数据类型:float64
数据划分:
- 划分名称:训练集
字节数:51609176
样本数:214537
下载大小:30828050
数据集总大小:51609176
配置项:
- 配置名称:cetuc
数据文件:
- 划分集:训练集
路径:cetuc/train-*
- 配置名称:cml
数据文件:
- 划分集:训练集
路径:cml/train-*
- 划分集:验证集
路径:cml/validation-*
- 划分集:测试集
路径:cml/test-*
- 配置名称:消费者保护法典(codigo-de-defesa-do-consumidor)
数据文件:
- 划分集:训练集
路径:codigo-de-defesa-do-consumidor/train-*
- 配置名称:通用语音22(Common Voice 22)
数据文件:
- 划分集:训练集
路径:common-voice-22/train-*
- 划分集:验证集
路径:common-voice-22/validation-*
- 划分集:测试集
路径:common-voice-22/test-*
- 配置名称:联邦宪法(constituicao-federal)
数据文件:
- 划分集:训练集
路径:constituicao-federal/train-*
- 配置名称:coraa-mupe
数据文件:
- 划分集:训练集
路径:coraa-mupe/train-*
- 划分集:验证集
路径:coraa-mupe/validation-*
- 划分集:测试集
路径:coraa-mupe/test-*
- 配置名称:coraa-nurc-sp
数据文件:
- 划分集:训练集
路径:coraa-nurc-sp/train-*
- 划分集:验证集
路径:coraa-nurc-sp/validation-*
- 划分集:测试集
路径:coraa-nurc-sp/test-*
- 配置名称:coraa-v1.1
数据文件:
- 划分集:训练集
路径:coraa-v1.1/train-*
- 划分集:验证集
路径:coraa-v1.1/validation-*
- 划分集:测试集
路径:coraa-v1.1/test-*
- 配置名称:FLEURS多语言语音数据集(FLEURS)
数据文件:
- 划分集:训练集
路径:fleurs/train-*
- 划分集:验证集
路径:fleurs/validation-*
- 划分集:测试集
路径:fleurs/test-*
- 配置名称:lapsbm
数据文件:
- 划分集:训练集
路径:lapsbm/train-*
- 配置名称:多语言LibriSpeech(mls)
数据文件:
- 划分集:训练集
路径:mls/train-*
- 划分集:验证集
路径:mls/validation-*
- 划分集:测试集
路径:mls/test-*
- 配置名称:sidney
数据文件:
- 划分集:训练集
路径:sidney/train-*
- 配置名称:TEDx演讲数据集(tedx)
数据文件:
- 划分集:训练集
路径:tedx/train-*
- 划分集:验证集
路径:tedx/validation-*
- 划分集:测试集
路径:tedx/test-*
- 配置名称:葡萄牙语文本转语音语料库(tts-portuguese-corpus)
数据文件:
- 划分集:训练集
路径:tts-portuguese-corpus/train-*
- 配置名称:VoxForge语音语料库(voxforge)
数据文件:
- 划分集:训练集
路径:voxforge/train-*
- 配置名称:yodas-granary
数据文件:
- 划分集:训练集
路径:yodas-granary/train-*
- 配置名称:youtube-commons-granary
数据文件:
- 划分集:训练集
路径:youtube-commons-granary/train-*
提供机构:
opedromartins



