WillHeld/librispeech_parquet
收藏Hugging Face2024-03-14 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/WillHeld/librispeech_parquet
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: file
dtype: string
- name: audio
dtype:
audio:
sampling_rate: 16000
- name: text
dtype: string
- name: speaker_id
dtype: int64
- name: chapter_id
dtype: int64
- name: id
dtype: string
splits:
- name: test
num_bytes: 367966786.42
num_examples: 2620
- name: validation
num_bytes: 359841018.966
num_examples: 2703
- name: train.100
num_bytes: 6622513525.062
num_examples: 28539
- name: train.360
num_bytes: 23908576855.828
num_examples: 104014
- name: train.500
num_bytes: 31825046131.584
num_examples: 148688
- name: train.960
num_bytes: 62356128107.863
num_examples: 281241
download_size: 121680142766
dataset_size: 125440072425.72299
configs:
- config_name: default
data_files:
- split: test
path: data/test-*
- split: validation
path: data/validation-*
- split: train.100
path: data/train.100-*
- split: train.360
path: data/train.360-*
- split: train.500
path: data/train.500-*
- split: train.960
path: data/train.960-*
---
数据集信息:
特征字段:
- 字段名:file,数据类型:字符串
- 字段名:audio,数据类型为音频格式,采样率为16000 赫兹
- 字段名:text,数据类型:字符串
- 字段名:speaker_id,数据类型:int64 整型
- 字段名:chapter_id,数据类型:int64 整型
- 字段名:id,数据类型:字符串
数据集划分:
- 划分名称:test,字节数:367966786.42,样本数:2620
- 划分名称:validation,字节数:359841018.966,样本数:2703
- 划分名称:train.100,字节数:6622513525.062,样本数:28539
- 划分名称:train.360,字节数:23908576855.828,样本数:104014
- 划分名称:train.500,字节数:31825046131.584,样本数:148688
- 划分名称:train.960,字节数:62356128107.863,样本数:281241
下载总大小:121680142766 字节
数据集总存储大小:125440072425.72299 字节
配置项:
- 配置名称:default,数据文件对应如下:
- 划分test:数据路径为 data/test-*
- 划分validation:数据路径为 data/validation-*
- 划分train.100:数据路径为 data/train.100-*
- 划分train.360:数据路径为 data/train.360-*
- 划分train.500:数据路径为 data/train.500-*
- 划分train.960:数据路径为 data/train.960-*
提供机构:
WillHeld
原始信息汇总
数据集概述
数据集特征
- file: 数据类型为字符串。
- audio: 数据类型为音频,采样率为16000。
- text: 数据类型为字符串。
- speaker_id: 数据类型为int64。
- chapter_id: 数据类型为int64。
- id: 数据类型为字符串。
数据集分割
- test: 包含2620个样本,总大小为367966786.42字节。
- validation: 包含2703个样本,总大小为359841018.966字节。
- train.100: 包含28539个样本,总大小为6622513525.062字节。
- train.360: 包含104014个样本,总大小为23908576855.828字节。
- train.500: 包含148688个样本,总大小为31825046131.584字节。
- train.960: 包含281241个样本,总大小为62356128107.863字节。
数据集大小
- 下载大小: 121680142766字节。
- 数据集总大小: 125440072425.72299字节。
配置文件
- config_name: default
- data_files:
- test: 路径为
data/test-*。 - validation: 路径为
data/validation-*。 - train.100: 路径为
data/train.100-*。 - train.360: 路径为
data/train.360-*。 - train.500: 路径为
data/train.500-*。 - train.960: 路径为
data/train.960-*。
- test: 路径为
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



