omaryshchenko/asr_merged_pl

Name: omaryshchenko/asr_merged_pl
Creator: omaryshchenko
Published: 2024-03-17 14:26:57
License: 暂无描述

Hugging Face2024-03-17 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/omaryshchenko/asr_merged_pl

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc dataset_info: features: - name: path dtype: string - name: audio dtype: audio: sampling_rate: 16000 - name: sentence dtype: string - name: text dtype: string splits: - name: train_common_voice num_bytes: 960957388.92 num_examples: 28954 - name: train_librispeach num_bytes: 7117600330.255 num_examples: 25555 - name: train_fleur num_bytes: 1888852121.4115 num_examples: 2598 - name: test_common_voice num_bytes: 359841808.02 num_examples: 9060 - name: test_librispeach num_bytes: 127410948.0 num_examples: 520 - name: test_fleur num_bytes: 390515157.83113456 num_examples: 626 download_size: 10148006999 dataset_size: 10845177754.437635 configs: - config_name: default data_files: - split: train_common_voice path: data/train_common_voice-* - split: train_librispeach path: data/train_librispeach-* - split: train_fleur path: data/train_fleur-* - split: test_common_voice path: data/test_common_voice-* - split: test_librispeach path: data/test_librispeach-* - split: test_fleur path: data/test_fleur-* ---

提供机构：

omaryshchenko

原始信息汇总

数据集概述

数据集特征

path：数据类型为字符串。
audio：数据类型为音频，采样率为16000 Hz。
sentence：数据类型为字符串。
text：数据类型为字符串。

数据集分割

train_common_voice：包含28954个样本，总大小为960957388.92字节。
train_librispeach：包含25555个样本，总大小为7117600330.255字节。
train_fleur：包含2598个样本，总大小为1888852121.4115字节。
test_common_voice：包含9060个样本，总大小为359841808.02字节。
test_librispeach：包含520个样本，总大小为127410948.0字节。
test_fleur：包含626个样本，总大小为390515157.83113456字节。

数据集大小

下载大小：10148006999字节。
数据集总大小：10845177754.437635字节。

配置文件

config_name：default
data_files：
- split：train_common_voice，路径为data/train_common_voice-*。
- split：train_librispeach，路径为data/train_librispeach-*。
- split：train_fleur，路径为data/train_fleur-*。
- split：test_common_voice，路径为data/test_common_voice-*。
- split：test_librispeach，路径为data/test_librispeach-*。
- split：test_fleur，路径为data/test_fleur-*。

5,000+

优质数据集

54 个

任务类型

进入经典数据集