WillHeld/librispeech_parquet

Name: WillHeld/librispeech_parquet
Creator: WillHeld
Published: 2024-03-14 21:57:02
License: 暂无描述

Hugging Face2024-03-14 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/WillHeld/librispeech_parquet

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: file dtype: string - name: audio dtype: audio: sampling_rate: 16000 - name: text dtype: string - name: speaker_id dtype: int64 - name: chapter_id dtype: int64 - name: id dtype: string splits: - name: test num_bytes: 367966786.42 num_examples: 2620 - name: validation num_bytes: 359841018.966 num_examples: 2703 - name: train.100 num_bytes: 6622513525.062 num_examples: 28539 - name: train.360 num_bytes: 23908576855.828 num_examples: 104014 - name: train.500 num_bytes: 31825046131.584 num_examples: 148688 - name: train.960 num_bytes: 62356128107.863 num_examples: 281241 download_size: 121680142766 dataset_size: 125440072425.72299 configs: - config_name: default data_files: - split: test path: data/test-* - split: validation path: data/validation-* - split: train.100 path: data/train.100-* - split: train.360 path: data/train.360-* - split: train.500 path: data/train.500-* - split: train.960 path: data/train.960-* ---

数据集信息：特征字段： - 字段名：file，数据类型：字符串 - 字段名：audio，数据类型为音频格式，采样率为16000 赫兹 - 字段名：text，数据类型：字符串 - 字段名：speaker_id，数据类型：int64 整型 - 字段名：chapter_id，数据类型：int64 整型 - 字段名：id，数据类型：字符串数据集划分： - 划分名称：test，字节数：367966786.42，样本数：2620 - 划分名称：validation，字节数：359841018.966，样本数：2703 - 划分名称：train.100，字节数：6622513525.062，样本数：28539 - 划分名称：train.360，字节数：23908576855.828，样本数：104014 - 划分名称：train.500，字节数：31825046131.584，样本数：148688 - 划分名称：train.960，字节数：62356128107.863，样本数：281241 下载总大小：121680142766 字节数据集总存储大小：125440072425.72299 字节配置项： - 配置名称：default，数据文件对应如下： - 划分test：数据路径为 data/test-* - 划分validation：数据路径为 data/validation-* - 划分train.100：数据路径为 data/train.100-* - 划分train.360：数据路径为 data/train.360-* - 划分train.500：数据路径为 data/train.500-* - 划分train.960：数据路径为 data/train.960-*

提供机构：

WillHeld

原始信息汇总

数据集概述

数据集特征

file: 数据类型为字符串。
audio: 数据类型为音频，采样率为16000。
text: 数据类型为字符串。
speaker_id: 数据类型为int64。
chapter_id: 数据类型为int64。
id: 数据类型为字符串。

数据集分割

test: 包含2620个样本，总大小为367966786.42字节。
validation: 包含2703个样本，总大小为359841018.966字节。
train.100: 包含28539个样本，总大小为6622513525.062字节。
train.360: 包含104014个样本，总大小为23908576855.828字节。
train.500: 包含148688个样本，总大小为31825046131.584字节。
train.960: 包含281241个样本，总大小为62356128107.863字节。

数据集大小

下载大小: 121680142766字节。
数据集总大小: 125440072425.72299字节。

配置文件

config_name: default
data_files:
- test: 路径为data/test-*。
- validation: 路径为data/validation-*。
- train.100: 路径为data/train.100-*。
- train.360: 路径为data/train.360-*。
- train.500: 路径为data/train.500-*。
- train.960: 路径为data/train.960-*。

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集