somehowchris/librispeech_asr

Name: somehowchris/librispeech_asr
Creator: somehowchris
Published: 2024-05-19 19:34:57
License: 暂无描述

Hugging Face2024-05-19 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/somehowchris/librispeech_asr

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多种特征，如文件名、音频（采样率为16000）、文本、说话人ID、章节ID、唯一标识符、说话人嵌入、文本语义ID和编解码器代码。数据集分为训练集（包含104014个示例，总字节数为51166555675.25）、测试集（包含2620个示例，总字节数为756282930.5）和验证集（包含2703个示例，总字节数为753951536.125）。数据集的下载大小为46444631789字节，数据集总大小为52676790141.875字节。

提供机构：

somehowchris

原始信息汇总

数据集概述

数据集特征

file: 数据类型为字符串。
audio: 数据类型为音频，采样率为16000。
text: 数据类型为字符串。
speaker_id: 数据类型为64位整数。
chapter_id: 数据类型为64位整数。
id: 数据类型为字符串。
speaker_embedding: 序列类型，内部序列数据类型为32位浮点数。
text_semantic_ids: 序列类型，内部序列数据类型为64位整数。
codec_codes: 序列类型，内部序列数据类型为64位整数。

数据集分割

训练集(train): 包含104014个样本，总大小为51166555675.25字节。
测试集(test): 包含2620个样本，总大小为756282930.5字节。
验证集(valdiation): 包含2703个样本，总大小为753951536.125字节。

数据集大小

下载大小: 46444631789字节。
数据集总大小: 52676790141.875字节。

数据文件配置

默认配置(default):
- 训练集路径: data/train-*
- 测试集路径: data/test-*
- 验证集路径: data/valdiation-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集