kotoba-speech/ThuVienThanhPhoBacGiang_tscribed_testing_whisper-large-v2

Name: kotoba-speech/ThuVienThanhPhoBacGiang_tscribed_testing_whisper-large-v2
Creator: kotoba-speech
Published: 2024-04-08 15:13:29
License: 暂无描述

Hugging Face2024-04-08 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/kotoba-speech/ThuVienThanhPhoBacGiang_tscribed_testing_whisper-large-v2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含音频和文本数据，每个数据项包括音频文件、对应的文本、持续时间、比例、视频ID、键值、数据集ID、语言、开始时间和结束时间。数据集主要用于训练，包含2314个样本，总大小为714883169.09字节。

提供机构：

kotoba-speech

原始信息汇总

数据集概述

数据集特征

audio: 音频数据
text: 文本数据，类型为字符串
duration: 持续时间，类型为浮点数
ratio: 比例，类型为浮点数
videoid: 视频ID，类型为字符串
key: 关键字，类型为字符串
dataset_id: 数据集ID，类型为字符串
lang: 语言，类型为字符串
start: 开始时间，类型为浮点数
end: 结束时间，类型为浮点数

数据集划分

train: 训练集
- num_examples: 2314个样本
- num_bytes: 714883169.09字节

数据集大小

download_size: 763251147字节
dataset_size: 714883169.09字节

配置

config_name: default
data_files:
- split: train
- path: data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集