five

WillHeld/librispeech_parquet

收藏
Hugging Face2024-03-14 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/WillHeld/librispeech_parquet
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: file dtype: string - name: audio dtype: audio: sampling_rate: 16000 - name: text dtype: string - name: speaker_id dtype: int64 - name: chapter_id dtype: int64 - name: id dtype: string splits: - name: test num_bytes: 367966786.42 num_examples: 2620 - name: validation num_bytes: 359841018.966 num_examples: 2703 - name: train.100 num_bytes: 6622513525.062 num_examples: 28539 - name: train.360 num_bytes: 23908576855.828 num_examples: 104014 - name: train.500 num_bytes: 31825046131.584 num_examples: 148688 - name: train.960 num_bytes: 62356128107.863 num_examples: 281241 download_size: 121680142766 dataset_size: 125440072425.72299 configs: - config_name: default data_files: - split: test path: data/test-* - split: validation path: data/validation-* - split: train.100 path: data/train.100-* - split: train.360 path: data/train.360-* - split: train.500 path: data/train.500-* - split: train.960 path: data/train.960-* ---

数据集信息: 特征字段: - 字段名:file,数据类型:字符串 - 字段名:audio,数据类型为音频格式,采样率为16000 赫兹 - 字段名:text,数据类型:字符串 - 字段名:speaker_id,数据类型:int64 整型 - 字段名:chapter_id,数据类型:int64 整型 - 字段名:id,数据类型:字符串 数据集划分: - 划分名称:test,字节数:367966786.42,样本数:2620 - 划分名称:validation,字节数:359841018.966,样本数:2703 - 划分名称:train.100,字节数:6622513525.062,样本数:28539 - 划分名称:train.360,字节数:23908576855.828,样本数:104014 - 划分名称:train.500,字节数:31825046131.584,样本数:148688 - 划分名称:train.960,字节数:62356128107.863,样本数:281241 下载总大小:121680142766 字节 数据集总存储大小:125440072425.72299 字节 配置项: - 配置名称:default,数据文件对应如下: - 划分test:数据路径为 data/test-* - 划分validation:数据路径为 data/validation-* - 划分train.100:数据路径为 data/train.100-* - 划分train.360:数据路径为 data/train.360-* - 划分train.500:数据路径为 data/train.500-* - 划分train.960:数据路径为 data/train.960-*
提供机构:
WillHeld
原始信息汇总

数据集概述

数据集特征

  • file: 数据类型为字符串。
  • audio: 数据类型为音频,采样率为16000。
  • text: 数据类型为字符串。
  • speaker_id: 数据类型为int64。
  • chapter_id: 数据类型为int64。
  • id: 数据类型为字符串。

数据集分割

  • test: 包含2620个样本,总大小为367966786.42字节。
  • validation: 包含2703个样本,总大小为359841018.966字节。
  • train.100: 包含28539个样本,总大小为6622513525.062字节。
  • train.360: 包含104014个样本,总大小为23908576855.828字节。
  • train.500: 包含148688个样本,总大小为31825046131.584字节。
  • train.960: 包含281241个样本,总大小为62356128107.863字节。

数据集大小

  • 下载大小: 121680142766字节。
  • 数据集总大小: 125440072425.72299字节。

配置文件

  • config_name: default
  • data_files:
    • test: 路径为data/test-*
    • validation: 路径为data/validation-*
    • train.100: 路径为data/train.100-*
    • train.360: 路径为data/train.360-*
    • train.500: 路径为data/train.500-*
    • train.960: 路径为data/train.960-*
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作