omaryshchenko/asr_merged_pl
收藏Hugging Face2024-03-17 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/omaryshchenko/asr_merged_pl
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc
dataset_info:
features:
- name: path
dtype: string
- name: audio
dtype:
audio:
sampling_rate: 16000
- name: sentence
dtype: string
- name: text
dtype: string
splits:
- name: train_common_voice
num_bytes: 960957388.92
num_examples: 28954
- name: train_librispeach
num_bytes: 7117600330.255
num_examples: 25555
- name: train_fleur
num_bytes: 1888852121.4115
num_examples: 2598
- name: test_common_voice
num_bytes: 359841808.02
num_examples: 9060
- name: test_librispeach
num_bytes: 127410948.0
num_examples: 520
- name: test_fleur
num_bytes: 390515157.83113456
num_examples: 626
download_size: 10148006999
dataset_size: 10845177754.437635
configs:
- config_name: default
data_files:
- split: train_common_voice
path: data/train_common_voice-*
- split: train_librispeach
path: data/train_librispeach-*
- split: train_fleur
path: data/train_fleur-*
- split: test_common_voice
path: data/test_common_voice-*
- split: test_librispeach
path: data/test_librispeach-*
- split: test_fleur
path: data/test_fleur-*
---
提供机构:
omaryshchenko
原始信息汇总
数据集概述
数据集特征
- path:数据类型为字符串。
- audio:数据类型为音频,采样率为16000 Hz。
- sentence:数据类型为字符串。
- text:数据类型为字符串。
数据集分割
- train_common_voice:包含28954个样本,总大小为960957388.92字节。
- train_librispeach:包含25555个样本,总大小为7117600330.255字节。
- train_fleur:包含2598个样本,总大小为1888852121.4115字节。
- test_common_voice:包含9060个样本,总大小为359841808.02字节。
- test_librispeach:包含520个样本,总大小为127410948.0字节。
- test_fleur:包含626个样本,总大小为390515157.83113456字节。
数据集大小
- 下载大小:10148006999字节。
- 数据集总大小:10845177754.437635字节。
配置文件
- config_name:default
- data_files:
- split:train_common_voice,路径为data/train_common_voice-*。
- split:train_librispeach,路径为data/train_librispeach-*。
- split:train_fleur,路径为data/train_fleur-*。
- split:test_common_voice,路径为data/test_common_voice-*。
- split:test_librispeach,路径为data/test_librispeach-*。
- split:test_fleur,路径为data/test_fleur-*。



