kennytat/test_dataset
收藏Hugging Face2023-12-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kennytat/test_dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: filename
dtype: string
- name: audio
dtype:
audio:
sampling_rate: 48000
- name: transcript
dtype: string
- name: sample_rate
dtype: int32
- name: duration
dtype: float32
- name: input_ids
sequence: int32
- name: token_type_ids
sequence: int8
- name: attention_mask
sequence: int8
splits:
- name: train
num_bytes: 10575340.0
num_examples: 20
download_size: 8562282
dataset_size: 10575340.0
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
kennytat
原始信息汇总
数据集概述
数据集特征
- filename: 文件名,数据类型为字符串。
- audio: 音频数据,包含采样率48000。
- transcript: 转录文本,数据类型为字符串。
- sample_rate: 采样率,数据类型为整数32位。
- duration: 持续时间,数据类型为浮点32位。
- input_ids: 输入ID序列,数据类型为整数32位。
- token_type_ids: 标记类型ID序列,数据类型为整数8位。
- attention_mask: 注意力掩码序列,数据类型为整数8位。
数据集划分
- train: 训练集,包含20个样本,占用10575340.0字节。
数据集大小
- 下载大小: 8562282字节。
- 数据集大小: 10575340.0字节。
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- split: train
- data_files:



