theodorr/mls_10k_eng_encodec
收藏Hugging Face2024-05-27 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/theodorr/mls_10k_eng_encodec
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含音频文件及其相关元数据,如原始路径、开始和结束时间、转录文本、音频时长、说话者ID和书籍ID。此外,还包括音频标记的序列信息。数据集分为训练集,包含2,420,047个样本,总大小为244,934,398,940.205字节,下载大小为171,168,727,024字节。
提供机构:
theodorr
原始信息汇总
数据集概述
数据集特征
- audio: 音频数据类型
- original_path: 字符串类型
- begin_time: 浮点数类型
- end_time: 浮点数类型
- transcript: 字符串类型
- audio_duration: 浮点数类型
- speaker_id: 字符串类型
- book_id: 字符串类型
- audio_token: 整数序列类型
数据集划分
- train: 训练集
- 数据量: 2420047个样本
- 存储大小: 244934398940.205字节
数据集大小
- 下载大小: 171168727024字节
- 数据集总大小: 244934398940.205字节
配置信息
- config_name: default
- data_files:
- split: train
- path: data/train-*



