five

omaryshchenko/asr_merged_pl

收藏
Hugging Face2024-03-17 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/omaryshchenko/asr_merged_pl
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc dataset_info: features: - name: path dtype: string - name: audio dtype: audio: sampling_rate: 16000 - name: sentence dtype: string - name: text dtype: string splits: - name: train_common_voice num_bytes: 960957388.92 num_examples: 28954 - name: train_librispeach num_bytes: 7117600330.255 num_examples: 25555 - name: train_fleur num_bytes: 1888852121.4115 num_examples: 2598 - name: test_common_voice num_bytes: 359841808.02 num_examples: 9060 - name: test_librispeach num_bytes: 127410948.0 num_examples: 520 - name: test_fleur num_bytes: 390515157.83113456 num_examples: 626 download_size: 10148006999 dataset_size: 10845177754.437635 configs: - config_name: default data_files: - split: train_common_voice path: data/train_common_voice-* - split: train_librispeach path: data/train_librispeach-* - split: train_fleur path: data/train_fleur-* - split: test_common_voice path: data/test_common_voice-* - split: test_librispeach path: data/test_librispeach-* - split: test_fleur path: data/test_fleur-* ---
提供机构:
omaryshchenko
原始信息汇总

数据集概述

数据集特征

  • path:数据类型为字符串。
  • audio:数据类型为音频,采样率为16000 Hz。
  • sentence:数据类型为字符串。
  • text:数据类型为字符串。

数据集分割

  • train_common_voice:包含28954个样本,总大小为960957388.92字节。
  • train_librispeach:包含25555个样本,总大小为7117600330.255字节。
  • train_fleur:包含2598个样本,总大小为1888852121.4115字节。
  • test_common_voice:包含9060个样本,总大小为359841808.02字节。
  • test_librispeach:包含520个样本,总大小为127410948.0字节。
  • test_fleur:包含626个样本,总大小为390515157.83113456字节。

数据集大小

  • 下载大小:10148006999字节。
  • 数据集总大小:10845177754.437635字节。

配置文件

  • config_name:default
  • data_files
    • split:train_common_voice,路径为data/train_common_voice-*。
    • split:train_librispeach,路径为data/train_librispeach-*。
    • split:train_fleur,路径为data/train_fleur-*。
    • split:test_common_voice,路径为data/test_common_voice-*。
    • split:test_librispeach,路径为data/test_librispeach-*。
    • split:test_fleur,路径为data/test_fleur-*。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作