Whispering-GPT/yannick-kilcher-transcript-audio

Name: Whispering-GPT/yannick-kilcher-transcript-audio
Creator: Whispering-GPT
Published: 2022-12-18 17:46:15
License: 暂无描述

Hugging Face2022-12-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Whispering-GPT/yannick-kilcher-transcript-audio

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过将whisper模型应用于Yannic Kilcher的YouTube视频创建的，包含了视频的转录文本和音频。数据集的结构包括视频的ID、频道名称、频道ID、视频标题、视频类别、描述、完整转录文本、分段转录信息（包括开始时间、结束时间和转录文本）以及提取的音频文件。数据集的语言为英语，且仅包含训练集。

提供机构：

Whispering-GPT

原始信息汇总

数据集概述

数据集名称

名称: yannic-kilcher-transcript-audio

任务类别

类别: 自动语音识别

数据集特征

id: 字符串类型
channel: 字符串类型
channel_id: 字符串类型
title: 字符串类型
categories: 字符串序列类型
tags: 字符串序列类型
description: 字符串类型
text: 字符串类型
segments: 列表类型，包含：
- start: 浮点数类型
- end: 浮点数类型
- text: 字符串类型
audio: 音频类型

数据集结构

数据字段:
- id: 视频ID
- channel: 频道名称
- channel_id: 频道ID
- title: 视频标题
- categories: 视频分类
- description: 作者添加的描述
- text: 视频全文转录
- segments: 视频时间及转录文本
  - start: 转录开始时间
  - end: 转录结束时间
  - text: 转录文本
- audio: 视频提取的音频，ogg格式

数据集分割

训练集: 370个样本，数据大小为15013848071.0字节，下载大小为15003651933字节

语言

语言: 英语

5,000+

优质数据集

54 个

任务类型

进入经典数据集