Whispering-GPT/whisper-transcripts-linustechtips
收藏Hugging Face2022-12-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Whispering-GPT/whisper-transcripts-linustechtips
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过应用Whisper模型对YouTube频道Linus Tech Tips的视频进行转录而创建的。数据集包含了视频的ID、频道名称、频道ID、视频标题、类别、描述、完整转录文本以及分段转录信息。数据集的语言为英语,且仅包含训练集。
提供机构:
Whispering-GPT
原始信息汇总
数据集概述
数据集名称
"whisper-transcripts-linustechtips"
任务类别
- 自动语音识别
数据集特征
- id: 字符串类型,YouTube视频ID。
- channel: 字符串类型,频道名称。
- channel_id: 字符串类型,YouTube频道ID。
- title: 字符串类型,视频标题。
- categories: 字符串序列,视频类别。
- tags: 字符串序列,视频标签。
- description: 字符串类型,作者添加的描述。
- text: 字符串类型,视频完整转录文本。
- segments: 列表类型,包含视频转录的时间和文本。
- start: 浮点数类型,转录开始时间。
- end: 浮点数类型,转录结束时间。
- text: 字符串类型,转录文本。
数据集结构
- 训练集:
- num_bytes: 177776633.92326075字节
- num_examples: 5655个实例
- download_size: 100975518字节
- dataset_size: 177776633.92326075字节
数据集语言
- 语言: 英语
数据集来源
- 转录来自YouTube频道Linus Tech Tips的视频。



