atmatechdev/dataset_120k_pseudo_labelled
收藏Hugging Face2024-06-01 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/atmatechdev/dataset_120k_pseudo_labelled
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含音频、句子、路径、条件序列和Whisper转录等特征。数据集分为训练集和测试集,训练集包含95808个样本,测试集包含23952个样本。数据集的下载大小为21640915198字节,总大小为21995783373.24字节。
该数据集包含音频、句子、路径、条件序列和Whisper转录等特征。数据集分为训练集和测试集,训练集包含95808个样本,测试集包含23952个样本。数据集的下载大小为21640915198字节,总大小为21995783373.24字节。
提供机构:
atmatechdev
原始信息汇总
数据集概述
数据集配置名称
- config_name: id
数据集特征
- audio:
- dtype:
- sampling_rate: 16000
- dtype:
- sentence:
- dtype: string
- path:
- dtype: string
- condition_on_prev:
- sequence: int64
- whisper_transcript:
- dtype: string
数据集分割
- train:
- num_examples: 95808
- num_bytes: 17610500352.192
- test:
- num_examples: 23952
- num_bytes: 4385283021.048
数据集大小
- download_size: 21640915198
- dataset_size: 21995783373.24
数据文件路径
- train: id/train-*
- test: id/test-*



