gharshit412/zeroth-kspon_pseudo_labelled
收藏Hugging Face2024-06-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/gharshit412/zeroth-kspon_pseudo_labelled
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含音频、文本、输入特征、标签、ID、Whisper转录、评估预测和条件预测等字段。数据集分为训练集和测试集,训练集包含61344个样本,测试集包含5272个样本,总大小为117668321740字节。
该数据集包含音频、文本、输入特征、标签、ID、Whisper转录、评估预测和条件预测等字段。数据集分为训练集和测试集,训练集包含61344个样本,测试集包含5272个样本,总大小为117668321740字节。
提供机构:
gharshit412
原始信息汇总
数据集概述
数据集特征
- audio:
- array: 序列类型,元素类型为
float64。 - path: 数据类型为
null。 - sampling_rate: 数据类型为
int64。
- array: 序列类型,元素类型为
- text: 数据类型为
string。 - input_features:
- 序列类型,元素类型为
float32。
- 序列类型,元素类型为
- labels: 序列类型,元素类型为
int64。 - id: 数据类型为
int64。 - whisper_transcript: 数据类型为
string。 - eval_preds: 序列类型,元素类型为
int64。 - condition_on_prev: 数据类型为
null。
数据集分割
- train:
- 数据大小: 110146354657 字节。
- 示例数量: 61344。
- test:
- 数据大小: 7521967083 字节。
- 示例数量: 5272。
数据集大小
- 下载大小: 26910269910 字节。
- 数据集总大小: 117668321740 字节。
配置
- config_name: default
- data_files:
- split: train, 路径模式:
data/train-*。 - split: test, 路径模式:
data/test-*。
- split: train, 路径模式:
- data_files:



