aben118/common_voice_16_1_hi_pseudo_labelled
收藏Hugging Face2024-04-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/aben118/common_voice_16_1_hi_pseudo_labelled
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含音频文件及其对应的文本转录,特征字段包括路径、音频、句子、条件序列和Whisper转录文本。数据集被分为训练集、验证集和测试集,分别包含717、405和575个样本,总下载大小为1400416668字节,数据集总大小为1494079988字节。
该数据集包含音频文件及其对应的文本转录,特征字段包括路径、音频、句子、条件序列和Whisper转录文本。数据集被分为训练集、验证集和测试集,分别包含717、405和575个样本,总下载大小为1400416668字节,数据集总大小为1494079988字节。
提供机构:
aben118
原始信息汇总
数据集概述
数据集配置
- 配置名称: hi
数据集特征
- path: 数据类型为字符串
- audio: 数据类型为音频,采样率为16000 Hz
- sentence: 数据类型为字符串
- condition_on_prev: 数据类型为整数序列
- whisper_transcript: 数据类型为字符串
数据集分割
- 训练集: 包含717个样本,总大小为634172742字节
- 验证集: 包含405个样本,总大小为359144662字节
- 测试集: 包含575个样本,总大小为500762584字节
数据集大小
- 下载大小: 1400416668字节
- 数据集总大小: 1494079988.0字节



